ComfyUI Tagger 插件完全入门教程
1. 插件简介
ComfyUI Tagger 是一个专门用来生成和管理图片描述词的插件,就像给照片贴标签一样简单!这个插件最厉害的地方是使用了 Florence 2 这个超强的"看图说话"技术,能够自动分析你的图片,然后告诉你这张图片里有什么内容,并且生成适合用在 Stable Diffusion、Flux、SD3、Kolors 等图片生成软件里的描述词。
插件地址: https://github.com/StarMagicAI/comfyui_tagger
这个插件能给你带来什么效果?
- 自动看图写描述词:上传一张图片,插件就能自动告诉你图片里有什么
- 批量处理:一次性处理很多张图片,省时省力
- 保存描述词:把生成的描述词保存成文件,方便以后使用
- 添加触发词:在描述词前面加上特定的词语,让生成效果更好
2. 如何安装
有两种安装方法,推荐使用第一种:
方法一:使用 ComfyUI Manager 安装(推荐)
- 打开你的 ComfyUI 界面
- 找到右边的"Manager"按钮,点击它
- 在弹出的窗口中点击"Install Custom Nodes"
- 搜索"comfyui_tagger"或"StarMagicAI"
- 找到插件后点击"Install"按钮
- 安装完成后重启 ComfyUI
方法二:手动安装
- 找到你的 ComfyUI 安装文件夹
- 进入
custom_nodes文件夹 - 按住 Shift 键,右键点击空白处,选择"在此处打开命令窗口"
- 输入命令:
git clone https://github.com/StarMagicAI/comfyui_tagger.git - 等待下载完成后,重启 ComfyUI
3. 节点详细解析
3.1 Florence2 Tagger 节点
这个节点就像一个专业的"看图写字"专家,你给它一张图片,它就能告诉你图片里有什么内容,并且把这些内容写成适合做图片生成的描述词。
参数详解:
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | image | 图片文件 | 任意图片 | 这就是你要让插件分析的图片,就像给医生看病要拍X光片一样 | 输入的图像数据用于视觉分析 | 把你想分析的图片连接到这里,比如一张猫咪的照片 |
| 任务类型 | task | 下拉选择 | detailed_caption | 这是告诉插件你想要什么样的分析结果,就像点菜时选择口味一样 | 指定Florence2模型执行的具体视觉任务类型 | 选择"detailed_caption"获得详细描述,或选择"caption"获得简单描述 |
| 最大新词数 | max_new_tokens | 数字 | 1024 | 这是限制插件最多能说多少个词,就像限制作文字数一样 | 控制生成文本的最大长度 | 设置为1024表示最多生成1024个词的描述 |
| 词数惩罚 | num_beams | 数字 | 3 | 这是控制插件说话的"创造性",数字越大越保守,越小越有创意 | 束搜索的数量,影响生成质量和多样性 | 设置为3是个不错的平衡点,既准确又有一定创意 |
| 温度 | temperature | 小数 | 0.0 | 这是控制插件回答的"随机性",就像调节空调温度一样 | 控制生成文本的随机性程度 | 设置为0.0表示每次都给出最可能的答案,设置为1.0则更随机 |
3.2 Batch Tagger 节点
这个节点就像一个超级快的流水线工人,能够一次性处理很多张图片,每张图片都能自动生成描述词。
参数详解:
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片列表 | images | 图片批次 | 多张图片 | 这是你要一次性处理的所有图片,就像一次洗很多衣服一样 | 批量输入的图像数据集合 | 连接多张图片,插件会依次处理每一张 |
| 任务类型 | task | 下拉选择 | detailed_caption | 和上面一样,选择你想要的分析类型 | 指定Florence2模型执行的具体视觉任务类型 | 选择适合的任务类型来获得想要的描述风格 |
| 最大新词数 | max_new_tokens | 数字 | 1024 | 限制每张图片描述的最大词数 | 控制每个生成文本的最大长度 | 根据需要调整,描述越详细数字越大 |
| 词数惩罚 | num_beams | 数字 | 3 | 控制生成质量的参数 | 束搜索的数量,影响生成质量和多样性 | 建议保持默认值3 |
| 温度 | temperature | 小数 | 0.0 | 控制回答的随机性 | 控制生成文本的随机性程度 | 0.0表示最稳定的结果 |
3.3 Save Tags To File 节点
这个节点就像一个贴心的秘书,能够把生成的描述词整理好保存到文件里,方便你以后使用。
参数详解:
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 描述词文本 | text | 文本内容 | 任意文本 | 这是你要保存的描述词内容,就像要存档的文件内容 | 需要保存到文件的文本数据 | 连接从tagger节点输出的描述词文本 |
| 文件名 | filename | 字符串 | "tags.txt" | 这是保存的文件名,就像给文件取名字一样 | 保存文件的名称 | 输入"my_tags.txt"就会保存成这个名字 |
| 保存路径 | save_path | 字符串 | "output/" | 这是文件保存的位置,就像选择把文件放在哪个文件夹里 | 文件保存的目录路径 | 输入"C:/my_tags/"就会保存到这个文件夹 |
| 追加模式 | append | 布尔值 | false | 这是选择是覆盖文件还是追加内容,就像选择是重新写作业还是接着写 | 是否以追加模式写入文件 | 设置为true会在文件末尾添加新内容,false会覆盖原有内容 |
3.4 Add Trigger Words 节点
这个节点就像一个调料师,能够在你的描述词前面加上特定的"调料词",让生成的图片效果更好。
参数详解:
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 原始文本 | text | 文本内容 | 任意文本 | 这是你的原始描述词,就像做菜的基础食材 | 需要添加触发词的原始文本 | 连接从tagger节点输出的描述词 |
| 触发词 | trigger_words | 字符串 | "" | 这是你要添加的特殊词语,就像做菜时加的调料 | 添加到文本开头的触发词 | 输入"masterpiece, best quality"等质量词 |
| 分隔符 | separator | 字符串 | ", " | 这是触发词和原文之间的分隔符号,就像标点符号一样 | 触发词与原文本之间的分隔符 | 通常使用", "(逗号加空格)来分隔 |
| 位置 | position | 下拉选择 | "beginning" | 这是选择把触发词放在前面还是后面,就像选择调料撒在菜的哪个位置 | 触发词添加的位置 | 选择"beginning"放在开头,"end"放在结尾 |
3.5 Prompt Engineer 节点
这个节点就像一个专业的描述词优化师,能够把简单的描述词变成更专业、更有效的描述词。
参数详解:
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入文本 | input_text | 文本内容 | 任意文本 | 这是你要优化的原始描述词,就像要美化的房子 | 需要优化的原始提示词文本 | 连接基础的描述词文本 |
| 优化模式 | optimization_mode | 下拉选择 | "enhance" | 这是选择优化的方式,就像选择装修风格一样 | 指定优化策略的模式 | "enhance"增强细节,"simplify"简化内容 |
| 目标风格 | target_style | 字符串 | "photorealistic" | 这是设置你想要的图片风格,就像选择拍照滤镜一样 | 指定生成图像的目标风格 | 输入"anime"、"oil painting"等风格词 |
| 权重强度 | weight_strength | 小数 | 1.0 | 这是控制优化的强度,就像调节滤镜的浓度一样 | 控制优化效果的强度 | 1.0是标准强度,1.5是加强,0.5是减弱 |
4. 使用技巧和建议
4.1 图片选择技巧
- 清晰度很重要:选择清晰、光线充足的图片,就像给人看照片一样,越清楚效果越好
- 主体明确:选择主体明确的图片,避免太复杂的场景
- 尺寸适中:图片不要太大也不要太小,1024x1024像素左右最合适
4.2 参数调整建议
- 新手建议:刚开始使用时,所有参数都用默认值就可以
- 需要详细描述:把max_new_tokens设置得大一些,比如1024或2048
- 需要稳定结果:把temperature设置为0.0
- 需要创意结果:把temperature设置为0.3-0.7之间
4.3 工作流程建议
- 先单张测试:用Florence2 Tagger处理一张图片,看看效果如何
- 调整参数:根据结果调整参数,直到满意为止
- 批量处理:使用Batch Tagger处理多张图片
- 保存结果:用Save Tags To File节点保存所有结果
- 添加优化:用Add Trigger Words添加质量词,用Prompt Engineer优化描述
4.4 常用触发词推荐
- 质量词:masterpiece, best quality, high resolution, ultra detailed
- 风格词:photorealistic, anime style, oil painting, digital art
- 特殊效果:dramatic lighting, cinematic, professional photography
5. 常见问题解答
Q1: 为什么生成的描述词都是英文?
A: 这是正常的,因为大部分图片生成软件都使用英文描述词效果更好。如果需要中文,可以使用翻译工具。
Q2: 生成的描述词太长了怎么办?
A: 可以调整max_new_tokens参数,设置一个更小的数值,比如512或256。
Q3: 描述词不够准确怎么办?
A: 可以尝试调整num_beams参数,增加到5或更高,或者使用不同的task类型。
Q4: 批量处理时卡住了怎么办?
A: 可能是图片太多或太大,建议分批处理,每次处理10-20张图片。
Q5: 保存的文件找不到怎么办?
A: 检查save_path路径是否正确,确保文件夹存在且有写入权限。
Q6: 触发词添加后效果不好怎么办?
A: 可以尝试不同的触发词组合,或者调整separator分隔符。
6. 实际应用案例
案例1:制作图片数据集
如果你有一堆图片想要制作成训练数据集,可以这样做:
- 使用Batch Tagger处理所有图片
- 用Add Trigger Words添加质量词
- 用Save Tags To File保存所有描述词
- 这样你就有了一个完整的图片+描述词数据集
案例2:优化现有描述词
如果你已经有一些描述词但觉得不够好,可以:
- 把描述词输入到Prompt Engineer节点
- 选择合适的优化模式
- 设置目标风格
- 获得更专业的描述词
案例3:创建风格一致的描述词
如果你想要所有图片都有相同的风格前缀:
- 使用Florence2 Tagger生成基础描述词
- 用Add Trigger Words添加统一的风格词
- 批量处理所有图片
- 保存结果用于后续的图片生成
7. 注意事项
- 网络连接:首次使用时插件需要下载Florence2模型,确保网络连接正常
- 显存要求:Florence2模型需要一定的显存,建议至少4GB显存
- 处理时间:分析图片需要时间,特别是高分辨率图片,请耐心等待
- 文件路径:保存文件时确保路径存在且有写入权限
- 模型更新:定期更新插件以获得最新功能和bug修复
这个插件真的是图片描述词生成的利器,掌握了它,你就能轻松为任何图片生成专业的描述词,无论是用于AI绘画还是数据整理,都会事半功倍!