ComfyUI_SLK_joy_caption_two 插件完全保姆级教程
1. 插件简介
插件原地址: https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two
ComfyUI_SLK_joy_caption_two 是一个超级智能的"图片描述生成器"插件!想象一下,你有一个非常聪明的朋友,能够看着任何图片,然后用文字详细描述图片里的内容,这个插件就是这样的"智能朋友"。
这个插件能给我们带来什么效果:
- 🖼️ 智能图片描述:就像有个专业解说员,能详细描述图片中的所有内容
- 📝 多种描述风格:可以生成正式描述、随意描述、艺术评论、社交媒体文案等不同风格
- 🎯 训练提示词生成:专门为AI绘画生成高质量的提示词,提升创作效果
- 📊 批量处理功能:可以一次性处理整个文件夹的图片,自动生成描述文件
- 🎨 专业级分析:能像艺术评论家一样分析图片的构图、色彩、风格等
- 🔧 高度可定制:支持自定义提示词、长度控制、额外选项等
简单来说,这就像给你的 ComfyUI 装了一个"超级图片解说员",不仅能看懂图片,还能用各种风格的文字来描述它们。
2. 如何安装
方法一:通过 ComfyUI Manager 安装(推荐)
- 先安装 ComfyUI Manager
- 在 ComfyUI 界面点击 Manager 按钮
- 选择 "Install Custom Node"
- 搜索
JoyCaptionAlpha Two for ComfyUI - 点击安装,重启 ComfyUI 即可
方法二:手动安装
- 打开终端/命令行
- 进入 ComfyUI 的 custom_nodes 文件夹
- 执行命令:
git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git - 进入插件文件夹:
cd ComfyUI_SLK_joy_caption_two - 安装依赖:
pip install -r requirements.txt - 下载必要的模型文件(见下方说明)
- 重启 ComfyUI
重要:模型文件下载
这个插件需要下载几个大模型文件,就像给"智能朋友"装上"大脑":
- CLIP视觉模型:
google/siglip-so400m-patch14-384(会自动下载) - 语言模型:
unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit(会自动下载) - Joy Caption模型:需要手动从 这里 下载
cgrkzexw-599808文件夹到models/Joy_caption_two目录
安装成功标志: 在节点菜单的 "SLK/LLM" 分类下会出现多个 Joy Caption 相关节点。
3. 节点详细解析
本插件总共包含 6 个节点,本教程将逐一详细解析每个节点的功能和参数。
3.1 Joy_caption_two_load 节点 - 模型加载器
这个节点是干嘛的?
这就像一个"智能大脑启动器",负责加载和准备所有需要的AI模型。想象你要使用一台复杂的机器,首先需要开机和初始化,这个节点就是做这个工作的。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model | model | 下拉选择 | unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit | 就像选择不同版本的"智能大脑",4bit版本占用显存更少 | 选择要使用的语言模型版本 | bnb-4bit(省显存), Instruct(标准版), Lexi-Uncensored(无审查版) |
3.2 Joy_caption_two 节点 - 基础图片描述生成器
这个节点是干嘛的?
这就是核心的"图片解说员",能看着图片然后用文字描述出来。就像你给朋友看照片,朋友会告诉你照片里有什么一样,但这个"朋友"更专业更详细。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| joy_two_pipeline | joy_two_pipeline | 管道输入 | 连接加载器节点 | 就像连接"智能大脑",提供分析能力 | 接收模型加载器的输出管道 | 连接Joy_caption_two_load节点 |
| image | image | 图片输入 | 连接其他节点 | 就像给"解说员"看的照片 | 接收需要描述的图像数据 | 连接Load Image或其他图片节点 |
| caption_type | caption_type | 下拉选择 | Descriptive | 就像选择"解说风格",正式的、随意的、艺术评论等 | 选择图片描述的类型和风格 | Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论) |
| caption_length | caption_length | 下拉选择 | long | 就像设置"话多话少",短描述还是长描述 | 控制生成描述的长度 | short(简短), long(详细), 100(100词左右) |
| low_vram | low_vram | 布尔值 | False | 就像"省电模式",显存不够时开启 | 是否启用低显存模式 | True(省显存), False(正常模式) |
3.3 Joy_caption_two_advanced 节点 - 高级图片描述生成器
这个节点是干嘛的?
这是基础版本的"升级版解说员",不仅能描述图片,还能根据你的特殊要求来调整描述方式,就像一个更专业、更听话的解说员。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| joy_two_pipeline | joy_two_pipeline | 管道输入 | 连接加载器节点 | 就像连接"智能大脑",提供分析能力 | 接收模型加载器的输出管道 | 连接Joy_caption_two_load节点 |
| image | image | 图片输入 | 连接其他节点 | 就像给"解说员"看的照片 | 接收需要描述的图像数据 | 连接Load Image或其他图片节点 |
| extra_options | extra_options | 额外选项输入 | 连接选项节点 | 就像给"解说员"的特殊指令,比如"要提到光线"、"不要提到文字" | 接收额外的描述选项和约束 | 连接Joy_extra_options节点 |
| caption_type | caption_type | 下拉选择 | Descriptive | 就像选择"解说风格",正式的、随意的、艺术评论等 | 选择图片描述的类型和风格 | Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论) |
| caption_length | caption_length | 下拉选择 | long | 就像设置"话多话少",短描述还是长描述 | 控制生成描述的长度 | short(简短), long(详细), 100(100词左右) |
| name | name | 字符串 | 空 | 就像给图片中的人物起个名字,比如"小明"、"女孩" | 指定图片中人物的称呼名称 | "girl"(女孩), "character"(角色), "person"(人物) |
| custom_prompt | custom_prompt | 字符串 | 空 | 就像给"解说员"的自定义指令,完全按你的要求来描述 | 自定义的描述提示词,会覆盖默认设置 | "描述这张图片的颜色和情感" |
| low_vram | low_vram | 布尔值 | False | 就像"省电模式",显存不够时开启 | 是否启用低显存模式 | True(省显存), False(正常模式) |
| top_p | top_p | 小数 | 0.9 | 就像调节"创意度",数值越高描述越有创意但可能不太准确 | 控制文本生成的多样性参数 | 0.7(保守), 0.9(平衡), 0.95(创意) |
| temperature | temperature | 小数 | 0.6 | 就像调节"随机性",数值越高描述越随机多变 | 控制文本生成的随机性参数 | 0.3(稳定), 0.6(平衡), 0.9(多变) |
3.4 Batch_joy_caption_two 节点 - 批量基础描述生成器
这个节点是干嘛的?
这就像一个"批量解说员",能一次性处理整个文件夹里的所有图片,为每张图片生成描述并保存成文本文件。就像雇了个助手帮你批量处理照片描述工作。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| joy_two_pipeline | joy_two_pipeline | 管道输入 | 连接加载器节点 | 就像连接"智能大脑",提供分析能力 | 接收模型加载器的输出管道 | 连接Joy_caption_two_load节点 |
| input_dir | input_dir | 字符串 | 空 | 就像告诉助手"图片都在哪个文件夹里" | 包含待处理图片的文件夹路径 | "C:/my_images/" 或 "/Users/name/pictures/" |
| output_dir | output_dir | 字符串 | 空 | 就像告诉助手"描述文件保存到哪里",空着就保存在图片文件夹 | 描述文本文件的保存路径 | "C:/captions/" 或留空使用输入文件夹 |
| caption_type | caption_type | 下拉选择 | Descriptive | 就像选择"解说风格",正式的、随意的、艺术评论等 | 选择图片描述的类型和风格 | Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论) |
| caption_length | caption_length | 下拉选择 | long | 就像设置"话多话少",短描述还是长描述 | 控制生成描述的长度 | short(简短), long(详细), 100(100词左右) |
| low_vram | low_vram | 布尔值 | False | 就像"省电模式",显存不够时开启 | 是否启用低显存模式 | True(省显存), False(正常模式) |
3.5 Batch_joy_caption_two_advanced 节点 - 批量高级描述生成器
这个节点是干嘛的?
这是批量处理的"超级版本",不仅能批量生成描述,还能重命名文件、添加前缀后缀、使用各种高级选项。就像雇了个非常专业的助手,能按你的各种要求来处理图片。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| joy_two_pipeline | joy_two_pipeline | 管道输入 | 连接加载器节点 | 就像连接"智能大脑",提供分析能力 | 接收模型加载器的输出管道 | 连接Joy_caption_two_load节点 |
| input_dir | input_dir | 字符串 | 空 | 就像告诉助手"图片都在哪个文件夹里" | 包含待处理图片的文件夹路径 | "C:/my_images/" 或 "/Users/name/pictures/" |
| output_dir | output_dir | 字符串 | 空 | 就像告诉助手"描述文件保存到哪里",空着就保存在图片文件夹 | 描述文本文件的保存路径 | "C:/captions/" 或留空使用输入文件夹 |
| rename | rename | 布尔值 | False | 就像"重新起名开关",开启后会给图片重新命名 | 是否对处理的图片进行重命名 | True(重命名), False(保持原名) |
| prefix_name | prefix_name | 字符串 | 空 | 就像给文件名加个"前缀",比如"训练图片_001" | 重命名时使用的文件名前缀 | "train_", "dataset_", "img_" |
| start_index | start_index | 整数 | 1 | 就像"编号起始点",从几号开始给文件编号 | 重命名时的起始编号 | 1(从1开始), 100(从100开始), 0(从0开始) |
| extra_options | extra_options | 额外选项输入 | 连接选项节点 | 就像给"解说员"的特殊指令,比如"要提到光线"、"不要提到文字" | 接收额外的描述选项和约束 | 连接Joy_extra_options节点 |
| caption_type | caption_type | 下拉选择 | Descriptive | 就像选择"解说风格",正式的、随意的、艺术评论等 | 选择图片描述的类型和风格 | Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论) |
| caption_length | caption_length | 下拉选择 | long | 就像设置"话多话少",短描述还是长描述 | 控制生成描述的长度 | short(简短), long(详细), 100(100词左右) |
| name | name | 字符串 | 空 | 就像给图片中的人物起个名字,比如"小明"、"女孩" | 指定图片中人物的称呼名称 | "girl"(女孩), "character"(角色), "person"(人物) |
| custom_prompt | custom_prompt | 字符串 | 空 | 就像给"解说员"的自定义指令,完全按你的要求来描述 | 自定义的描述提示词,会覆盖默认设置 | "描述这张图片的颜色和情感" |
| low_vram | low_vram | 布尔值 | False | 就像"省电模式",显存不够时开启 | 是否启用低显存模式 | True(省显存), False(正常模式) |
| top_p | top_p | 小数 | 0.9 | 就像调节"创意度",数值越高描述越有创意但可能不太准确 | 控制文本生成的多样性参数 | 0.7(保守), 0.9(平衡), 0.95(创意) |
| temperature | temperature | 小数 | 0.6 | 就像调节"随机性",数值越高描述越随机多变 | 控制文本生成的随机性参数 | 0.3(稳定), 0.6(平衡), 0.9(多变) |
| prefix_caption | prefix_caption | 字符串 | 空 | 就像在描述前面加个"开头语",比如"这是一张" | 在生成的描述前添加的固定文本 | "这是一张", "图片显示", "画面中" |
| suffix_caption | suffix_caption | 字符串 | 空 | 就像在描述后面加个"结尾语",比如"的照片" | 在生成的描述后添加的固定文本 | "的照片", ", 高质量", ", 专业摄影" |
3.6 Joy_extra_options 节点 - 额外选项配置器
这个节点是干嘛的?
这就像一个"指令清单",可以给图片描述生成器设置各种特殊要求。比如"要提到光线"、"不要提到性别"、"要分析构图"等等,让描述更符合你的需求。
参数详解:
这个节点有很多布尔值参数,每个都对应一个特殊指令:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 各种选项开关 | 对应选项名 | 布尔值 | 根据需要 | 就像一个个"特殊要求开关",开启后会在描述中包含对应内容 | 控制描述生成时的特定约束和要求 | 根据实际需要开启相应选项 |
主要选项包括:
- 人物称呼控制:如果图片中有人,必须用指定名称称呼
- 隐私保护:不包含不可改变的特征(如种族、性别)
- 技术信息:包含光线、相机角度、拍摄参数等信息
- 内容过滤:保持内容健康,不包含不当内容
- 构图分析:包含构图风格、景深等专业分析
- 质量评估:包含图片美学质量的主观评价
4. 使用技巧和建议
4.1 新手入门建议
- 先从基础节点开始:建议从 Joy_caption_two 基础节点开始学习
- 确保模型下载完整:特别是 Joy Caption 模型需要手动下载
- 选择合适的描述类型:新手建议先用 "Descriptive" 类型
4.2 进阶使用技巧
- 合理选择模型版本:显存不足选择 bnb-4bit 版本,显存充足选择标准版
- 调节生成参数:top_p 和 temperature 影响描述的创意性和稳定性
- 使用额外选项:根据具体需求开启相应的额外选项
4.3 批量处理建议
- 文件夹整理:批量处理前确保图片文件夹整理好
- 路径设置:使用绝对路径避免找不到文件
- 显存管理:批量处理时建议开启 low_vram 模式
4.4 性能优化建议
- 模型选择:根据显存大小选择合适的模型版本
- 参数调节:适当降低 temperature 可以提高生成速度
- 内存清理:长时间使用后重启 ComfyUI 清理内存
5. 常见问题解答
Q1: 安装后找不到节点怎么办?
A:
- 检查是否正确重启了 ComfyUI
- 确认所有依赖都已安装
- 检查模型文件是否下载完整
Q2: 生成描述时显存不足怎么办?
A:
- 开启 low_vram 模式
- 选择 bnb-4bit 版本的模型
- 关闭其他占用显存的程序
Q3: 生成的描述质量不好怎么办?
A:
- 尝试不同的 caption_type
- 调节 top_p 和 temperature 参数
- 使用 extra_options 添加特定要求
Q4: 批量处理时出错怎么办?
A:
- 检查输入文件夹路径是否正确
- 确认图片格式是否支持
- 查看错误信息确定具体问题
Q5: 模型加载失败怎么办?
A:
- 检查模型文件是否完整下载
- 确认文件夹路径是否正确
- 重新下载损坏的模型文件
6. 实际应用场景
6.1 AI绘画训练数据准备
- 为训练图片生成高质量描述
- 批量处理大量训练素材
- 生成标准化的提示词格式
6.2 图片内容管理
- 为照片库生成搜索标签
- 创建图片内容索引
- 自动化图片分类描述
6.3 社交媒体内容创作
- 生成图片配文
- 创建产品描述
- 制作艺术作品解说
6.4 无障碍辅助功能
- 为视觉障碍用户生成图片描述
- 创建图片的文字替代内容
- 提供详细的视觉信息描述
7. 描述类型详解
7.1 Descriptive(描述性)
- 用途:生成客观、详细的图片描述
- 特点:正式语调,注重事实描述
- 适用场景:学术研究、档案管理、无障碍辅助
7.2 Training Prompt(训练提示词)
- 用途:生成适合AI绘画的提示词
- 特点:关键词丰富,格式标准化
- 适用场景:AI模型训练、图片生成
7.3 Art Critic(艺术评论)
- 用途:从艺术角度分析图片
- 特点:专业术语,深度分析
- 适用场景:艺术教育、作品评析
7.4 Social Media Post(社交媒体)
- 用途:生成适合社交平台的文案
- 特点:轻松活泼,吸引眼球
- 适用场景:社交媒体运营、内容营销
8. 总结
ComfyUI_SLK_joy_caption_two 插件是一个功能强大的图片描述生成工具,包含了 6个实用节点:
- Joy_caption_two_load - 模型加载器
- Joy_caption_two - 基础图片描述生成器
- Joy_caption_two_advanced - 高级图片描述生成器
- Batch_joy_caption_two - 批量基础描述生成器
- Batch_joy_caption_two_advanced - 批量高级描述生成器
- Joy_extra_options - 额外选项配置器
本教程已完整覆盖所有 6 个节点,每个节点的所有参数都进行了详细解释,确保零基础用户也能轻松上手!
这个插件特别适合需要大量图片描述、AI训练数据准备、内容管理的用户。无论是个人创作还是商业应用,都能提供高质量的图片描述服务。记住,首次使用需要下载大量模型文件,请耐心等待并确保网络稳定!