ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI SLK插件超详细使用教程 手把手教你玩转AI绘画

ComfyUI SLK插件超详细使用教程 手把手教你玩转AI绘画

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-06-28
  • 45 次阅读
编程界的小学生
编程界的小学生

ComfyUI_SLK_joy_caption_two 插件完全保姆级教程

1. 插件简介

插件原地址: https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two

ComfyUI_SLK_joy_caption_two 是一个超级智能的"图片描述生成器"插件!想象一下,你有一个非常聪明的朋友,能够看着任何图片,然后用文字详细描述图片里的内容,这个插件就是这样的"智能朋友"。

这个插件能给我们带来什么效果:

  • 🖼️ 智能图片描述:就像有个专业解说员,能详细描述图片中的所有内容
  • 📝 多种描述风格:可以生成正式描述、随意描述、艺术评论、社交媒体文案等不同风格
  • 🎯 训练提示词生成:专门为AI绘画生成高质量的提示词,提升创作效果
  • 📊 批量处理功能:可以一次性处理整个文件夹的图片,自动生成描述文件
  • 🎨 专业级分析:能像艺术评论家一样分析图片的构图、色彩、风格等
  • 🔧 高度可定制:支持自定义提示词、长度控制、额外选项等

简单来说,这就像给你的 ComfyUI 装了一个"超级图片解说员",不仅能看懂图片,还能用各种风格的文字来描述它们。

2. 如何安装

方法一:通过 ComfyUI Manager 安装(推荐)

  1. 先安装 ComfyUI Manager
  2. 在 ComfyUI 界面点击 Manager 按钮
  3. 选择 "Install Custom Node"
  4. 搜索 JoyCaptionAlpha Two for ComfyUI
  5. 点击安装,重启 ComfyUI 即可

方法二:手动安装

  1. 打开终端/命令行
  2. 进入 ComfyUI 的 custom_nodes 文件夹
  3. 执行命令:git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git
  4. 进入插件文件夹:cd ComfyUI_SLK_joy_caption_two
  5. 安装依赖:pip install -r requirements.txt
  6. 下载必要的模型文件(见下方说明)
  7. 重启 ComfyUI

重要:模型文件下载

这个插件需要下载几个大模型文件,就像给"智能朋友"装上"大脑":

  1. CLIP视觉模型:google/siglip-so400m-patch14-384(会自动下载)
  2. 语言模型:unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit(会自动下载)
  3. Joy Caption模型:需要手动从 这里 下载 cgrkzexw-599808 文件夹到 models/Joy_caption_two 目录

安装成功标志: 在节点菜单的 "SLK/LLM" 分类下会出现多个 Joy Caption 相关节点。

3. 节点详细解析

本插件总共包含 6 个节点,本教程将逐一详细解析每个节点的功能和参数。

3.1 Joy_caption_two_load 节点 - 模型加载器

这个节点是干嘛的?
这就像一个"智能大脑启动器",负责加载和准备所有需要的AI模型。想象你要使用一台复杂的机器,首先需要开机和初始化,这个节点就是做这个工作的。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
modelmodel下拉选择unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit就像选择不同版本的"智能大脑",4bit版本占用显存更少选择要使用的语言模型版本bnb-4bit(省显存), Instruct(标准版), Lexi-Uncensored(无审查版)

3.2 Joy_caption_two 节点 - 基础图片描述生成器

这个节点是干嘛的?
这就是核心的"图片解说员",能看着图片然后用文字描述出来。就像你给朋友看照片,朋友会告诉你照片里有什么一样,但这个"朋友"更专业更详细。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
joy_two_pipelinejoy_two_pipeline管道输入连接加载器节点就像连接"智能大脑",提供分析能力接收模型加载器的输出管道连接Joy_caption_two_load节点
imageimage图片输入连接其他节点就像给"解说员"看的照片接收需要描述的图像数据连接Load Image或其他图片节点
caption_typecaption_type下拉选择Descriptive就像选择"解说风格",正式的、随意的、艺术评论等选择图片描述的类型和风格Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论)
caption_lengthcaption_length下拉选择long就像设置"话多话少",短描述还是长描述控制生成描述的长度short(简短), long(详细), 100(100词左右)
low_vramlow_vram布尔值False就像"省电模式",显存不够时开启是否启用低显存模式True(省显存), False(正常模式)

3.3 Joy_caption_two_advanced 节点 - 高级图片描述生成器

这个节点是干嘛的?
这是基础版本的"升级版解说员",不仅能描述图片,还能根据你的特殊要求来调整描述方式,就像一个更专业、更听话的解说员。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
joy_two_pipelinejoy_two_pipeline管道输入连接加载器节点就像连接"智能大脑",提供分析能力接收模型加载器的输出管道连接Joy_caption_two_load节点
imageimage图片输入连接其他节点就像给"解说员"看的照片接收需要描述的图像数据连接Load Image或其他图片节点
extra_optionsextra_options额外选项输入连接选项节点就像给"解说员"的特殊指令,比如"要提到光线"、"不要提到文字"接收额外的描述选项和约束连接Joy_extra_options节点
caption_typecaption_type下拉选择Descriptive就像选择"解说风格",正式的、随意的、艺术评论等选择图片描述的类型和风格Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论)
caption_lengthcaption_length下拉选择long就像设置"话多话少",短描述还是长描述控制生成描述的长度short(简短), long(详细), 100(100词左右)
namename字符串空就像给图片中的人物起个名字,比如"小明"、"女孩"指定图片中人物的称呼名称"girl"(女孩), "character"(角色), "person"(人物)
custom_promptcustom_prompt字符串空就像给"解说员"的自定义指令,完全按你的要求来描述自定义的描述提示词,会覆盖默认设置"描述这张图片的颜色和情感"
low_vramlow_vram布尔值False就像"省电模式",显存不够时开启是否启用低显存模式True(省显存), False(正常模式)
top_ptop_p小数0.9就像调节"创意度",数值越高描述越有创意但可能不太准确控制文本生成的多样性参数0.7(保守), 0.9(平衡), 0.95(创意)
temperaturetemperature小数0.6就像调节"随机性",数值越高描述越随机多变控制文本生成的随机性参数0.3(稳定), 0.6(平衡), 0.9(多变)

3.4 Batch_joy_caption_two 节点 - 批量基础描述生成器

这个节点是干嘛的?
这就像一个"批量解说员",能一次性处理整个文件夹里的所有图片,为每张图片生成描述并保存成文本文件。就像雇了个助手帮你批量处理照片描述工作。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
joy_two_pipelinejoy_two_pipeline管道输入连接加载器节点就像连接"智能大脑",提供分析能力接收模型加载器的输出管道连接Joy_caption_two_load节点
input_dirinput_dir字符串空就像告诉助手"图片都在哪个文件夹里"包含待处理图片的文件夹路径"C:/my_images/" 或 "/Users/name/pictures/"
output_diroutput_dir字符串空就像告诉助手"描述文件保存到哪里",空着就保存在图片文件夹描述文本文件的保存路径"C:/captions/" 或留空使用输入文件夹
caption_typecaption_type下拉选择Descriptive就像选择"解说风格",正式的、随意的、艺术评论等选择图片描述的类型和风格Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论)
caption_lengthcaption_length下拉选择long就像设置"话多话少",短描述还是长描述控制生成描述的长度short(简短), long(详细), 100(100词左右)
low_vramlow_vram布尔值False就像"省电模式",显存不够时开启是否启用低显存模式True(省显存), False(正常模式)

3.5 Batch_joy_caption_two_advanced 节点 - 批量高级描述生成器

这个节点是干嘛的?
这是批量处理的"超级版本",不仅能批量生成描述,还能重命名文件、添加前缀后缀、使用各种高级选项。就像雇了个非常专业的助手,能按你的各种要求来处理图片。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
joy_two_pipelinejoy_two_pipeline管道输入连接加载器节点就像连接"智能大脑",提供分析能力接收模型加载器的输出管道连接Joy_caption_two_load节点
input_dirinput_dir字符串空就像告诉助手"图片都在哪个文件夹里"包含待处理图片的文件夹路径"C:/my_images/" 或 "/Users/name/pictures/"
output_diroutput_dir字符串空就像告诉助手"描述文件保存到哪里",空着就保存在图片文件夹描述文本文件的保存路径"C:/captions/" 或留空使用输入文件夹
renamerename布尔值False就像"重新起名开关",开启后会给图片重新命名是否对处理的图片进行重命名True(重命名), False(保持原名)
prefix_nameprefix_name字符串空就像给文件名加个"前缀",比如"训练图片_001"重命名时使用的文件名前缀"train_", "dataset_", "img_"
start_indexstart_index整数1就像"编号起始点",从几号开始给文件编号重命名时的起始编号1(从1开始), 100(从100开始), 0(从0开始)
extra_optionsextra_options额外选项输入连接选项节点就像给"解说员"的特殊指令,比如"要提到光线"、"不要提到文字"接收额外的描述选项和约束连接Joy_extra_options节点
caption_typecaption_type下拉选择Descriptive就像选择"解说风格",正式的、随意的、艺术评论等选择图片描述的类型和风格Descriptive(描述性), Training Prompt(训练提示词), Art Critic(艺术评论)
caption_lengthcaption_length下拉选择long就像设置"话多话少",短描述还是长描述控制生成描述的长度short(简短), long(详细), 100(100词左右)
namename字符串空就像给图片中的人物起个名字,比如"小明"、"女孩"指定图片中人物的称呼名称"girl"(女孩), "character"(角色), "person"(人物)
custom_promptcustom_prompt字符串空就像给"解说员"的自定义指令,完全按你的要求来描述自定义的描述提示词,会覆盖默认设置"描述这张图片的颜色和情感"
low_vramlow_vram布尔值False就像"省电模式",显存不够时开启是否启用低显存模式True(省显存), False(正常模式)
top_ptop_p小数0.9就像调节"创意度",数值越高描述越有创意但可能不太准确控制文本生成的多样性参数0.7(保守), 0.9(平衡), 0.95(创意)
temperaturetemperature小数0.6就像调节"随机性",数值越高描述越随机多变控制文本生成的随机性参数0.3(稳定), 0.6(平衡), 0.9(多变)
prefix_captionprefix_caption字符串空就像在描述前面加个"开头语",比如"这是一张"在生成的描述前添加的固定文本"这是一张", "图片显示", "画面中"
suffix_captionsuffix_caption字符串空就像在描述后面加个"结尾语",比如"的照片"在生成的描述后添加的固定文本"的照片", ", 高质量", ", 专业摄影"

3.6 Joy_extra_options 节点 - 额外选项配置器

这个节点是干嘛的?
这就像一个"指令清单",可以给图片描述生成器设置各种特殊要求。比如"要提到光线"、"不要提到性别"、"要分析构图"等等,让描述更符合你的需求。

参数详解:

这个节点有很多布尔值参数,每个都对应一个特殊指令:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
各种选项开关对应选项名布尔值根据需要就像一个个"特殊要求开关",开启后会在描述中包含对应内容控制描述生成时的特定约束和要求根据实际需要开启相应选项

主要选项包括:

  • 人物称呼控制:如果图片中有人,必须用指定名称称呼
  • 隐私保护:不包含不可改变的特征(如种族、性别)
  • 技术信息:包含光线、相机角度、拍摄参数等信息
  • 内容过滤:保持内容健康,不包含不当内容
  • 构图分析:包含构图风格、景深等专业分析
  • 质量评估:包含图片美学质量的主观评价

4. 使用技巧和建议

4.1 新手入门建议

  1. 先从基础节点开始:建议从 Joy_caption_two 基础节点开始学习
  2. 确保模型下载完整:特别是 Joy Caption 模型需要手动下载
  3. 选择合适的描述类型:新手建议先用 "Descriptive" 类型

4.2 进阶使用技巧

  1. 合理选择模型版本:显存不足选择 bnb-4bit 版本,显存充足选择标准版
  2. 调节生成参数:top_p 和 temperature 影响描述的创意性和稳定性
  3. 使用额外选项:根据具体需求开启相应的额外选项

4.3 批量处理建议

  1. 文件夹整理:批量处理前确保图片文件夹整理好
  2. 路径设置:使用绝对路径避免找不到文件
  3. 显存管理:批量处理时建议开启 low_vram 模式

4.4 性能优化建议

  1. 模型选择:根据显存大小选择合适的模型版本
  2. 参数调节:适当降低 temperature 可以提高生成速度
  3. 内存清理:长时间使用后重启 ComfyUI 清理内存

5. 常见问题解答

Q1: 安装后找不到节点怎么办?

A:

  • 检查是否正确重启了 ComfyUI
  • 确认所有依赖都已安装
  • 检查模型文件是否下载完整

Q2: 生成描述时显存不足怎么办?

A:

  • 开启 low_vram 模式
  • 选择 bnb-4bit 版本的模型
  • 关闭其他占用显存的程序

Q3: 生成的描述质量不好怎么办?

A:

  • 尝试不同的 caption_type
  • 调节 top_p 和 temperature 参数
  • 使用 extra_options 添加特定要求

Q4: 批量处理时出错怎么办?

A:

  • 检查输入文件夹路径是否正确
  • 确认图片格式是否支持
  • 查看错误信息确定具体问题

Q5: 模型加载失败怎么办?

A:

  • 检查模型文件是否完整下载
  • 确认文件夹路径是否正确
  • 重新下载损坏的模型文件

6. 实际应用场景

6.1 AI绘画训练数据准备

  • 为训练图片生成高质量描述
  • 批量处理大量训练素材
  • 生成标准化的提示词格式

6.2 图片内容管理

  • 为照片库生成搜索标签
  • 创建图片内容索引
  • 自动化图片分类描述

6.3 社交媒体内容创作

  • 生成图片配文
  • 创建产品描述
  • 制作艺术作品解说

6.4 无障碍辅助功能

  • 为视觉障碍用户生成图片描述
  • 创建图片的文字替代内容
  • 提供详细的视觉信息描述

7. 描述类型详解

7.1 Descriptive(描述性)

  • 用途:生成客观、详细的图片描述
  • 特点:正式语调,注重事实描述
  • 适用场景:学术研究、档案管理、无障碍辅助

7.2 Training Prompt(训练提示词)

  • 用途:生成适合AI绘画的提示词
  • 特点:关键词丰富,格式标准化
  • 适用场景:AI模型训练、图片生成

7.3 Art Critic(艺术评论)

  • 用途:从艺术角度分析图片
  • 特点:专业术语,深度分析
  • 适用场景:艺术教育、作品评析

7.4 Social Media Post(社交媒体)

  • 用途:生成适合社交平台的文案
  • 特点:轻松活泼,吸引眼球
  • 适用场景:社交媒体运营、内容营销

8. 总结

ComfyUI_SLK_joy_caption_two 插件是一个功能强大的图片描述生成工具,包含了 6个实用节点:

  1. Joy_caption_two_load - 模型加载器
  2. Joy_caption_two - 基础图片描述生成器
  3. Joy_caption_two_advanced - 高级图片描述生成器
  4. Batch_joy_caption_two - 批量基础描述生成器
  5. Batch_joy_caption_two_advanced - 批量高级描述生成器
  6. Joy_extra_options - 额外选项配置器

本教程已完整覆盖所有 6 个节点,每个节点的所有参数都进行了详细解释,确保零基础用户也能轻松上手!

这个插件特别适合需要大量图片描述、AI训练数据准备、内容管理的用户。无论是个人创作还是商业应用,都能提供高质量的图片描述服务。记住,首次使用需要下载大量模型文件,请耐心等待并确保网络稳定!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号