ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI Joy Caption插件使用指南 从入门到精通教程

ComfyUI Joy Caption插件使用指南 从入门到精通教程

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-06-30
  • 34 次阅读
编程界的小学生
编程界的小学生

ComfyUI Joy Caption 插件完全教程

1. 插件简介

插件地址: https://github.com/TTPlanetPig/Comfyui_JC2

ComfyUI Joy Caption 插件是一个超级强大的图片描述生成工具,就像给你的电脑配了一个专业的"看图说话"助手。这个插件能够:

主要功能:

  • 自动分析图片内容并生成详细的文字描述
  • 支持多种描述风格(正式描述、随意描述、训练提示词等)
  • 支持两个版本:Alpha Two 和最新的 Beta One
  • 可以生成不同长度的描述文字
  • 支持多种专业用途(艺术评论、产品列表、社交媒体等)
  • 自动下载和管理所需的AI模型
  • 支持显存优化,适配不同配置的电脑

能给我们带来什么效果:

  • 快速为大量图片生成准确的描述文字
  • 为AI绘画提供高质量的训练数据
  • 自动化图片标注工作
  • 生成各种风格的图片说明文字

2. 如何安装

方法一:通过 ComfyUI Manager 安装(推荐)

  1. 打开 ComfyUI Manager
  2. 搜索 "JC2" 或 "Joy Caption"
  3. 点击安装

方法二:手动安装

  1. 进入 ComfyUI 的 custom_nodes 文件夹
  2. 运行命令:git clone https://github.com/TTPlanetPig/Comfyui_JC2.git
  3. 安装依赖包:pip install -r requirements.txt
  4. 重启 ComfyUI

安装后设置

  1. 插件会自动创建所需的文件夹
  2. 首次使用时会自动下载所需的AI模型
  3. 如需加速,可以运行插件目录下的 安装liger-kernel.bat

3. 节点详细解析

3.1 JoyCaption2 节点(完整版)

这个节点就像一个"全能图片描述师",它能看懂图片并用各种风格写出描述文字。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imageimageIMAGE类型-要分析的图片输入的图像张量连接图片加载节点的输出
llm_modelllm_model选择列表unsloth/Meta-Llama-3.1-8B-Instruct选择用哪个大脑来理解图片语言模型选择推荐使用默认模型
dtypedtype选择列表nf4模型运行模式,像画质设置数据类型和量化模式nf4省显存,bf16效果更好
caption_typecaption_type选择列表Descriptive描述风格类型生成文本的类型和风格选择"Descriptive"生成详细描述
caption_lengthcaption_length选择列表medium-length描述文字的长度生成文本的长度控制"short"简短,"long"详细
user_promptuser_prompt文本框-自定义描述要求用户自定义提示词输入"描述这张图的颜色"
max_new_tokensmax_new_tokens整数260最多生成多少个词生成文本的最大长度260够用,太大会很慢
top_ptop_p浮点数0.8创意程度,像想象力开关核采样参数0.8平衡,0.9更有创意
temperaturetemperature浮点数0.6随机程度,像思维活跃度温度参数控制随机性0.6稳定,0.8更多样
cache_modelcache_model布尔值False是否把模型留在内存里是否缓存模型以加速后续使用True加速但占内存
devicedevice选择列表cuda:0选择用哪个显卡运行GPU设备选择有多张显卡时选择
enable_extra_optionsenable_extra_options布尔值True是否启用额外选项是否启用扩展功能选项True开启更多功能
character_namecharacter_name文本框-图片中人物的名字角色名称用于替换模板输入"小明"会在描述中使用

额外选项参数(17个):

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
replace_character_namesreplace_character_names布尔值False用指定名字称呼图中人物替换角色名称选项开启后会用character_name替换
exclude_unchangeable_attributesexclude_unchangeable_attributes布尔值False不描述不能改变的特征排除固有属性描述不描述性别、种族等
include_lighting_detailsinclude_lighting_details布尔值False描述光线情况包含光照信息描述"柔和的自然光"
include_camera_angleinclude_camera_angle布尔值False描述拍摄角度包含相机角度信息描述"俯视角度拍摄"
mention_watermark_presencemention_watermark_presence布尔值False说明是否有水印提及水印存在与否"图片右下角有水印"
note_jpeg_artifactsnote_jpeg_artifacts布尔值False说明图片压缩情况注明JPEG压缩痕迹"图片有轻微压缩痕迹"
include_exif_datainclude_exif_data布尔值False推测拍摄参数包含相机设置信息"可能使用f/2.8光圈拍摄"
exclude_sexual_contentexclude_sexual_content布尔值False保持内容健康排除成人内容描述生成适合所有人的描述
exclude_image_resolutionexclude_image_resolution布尔值False不提及图片分辨率不包含分辨率信息不会说"高清图片"
describe_aesthetic_qualitydescribe_aesthetic_quality布尔值False评价图片美观程度包含美学质量评估"图片质量很高"
include_composition_styleinclude_composition_style布尔值False描述构图方式包含构图风格信息"使用三分法构图"
exclude_text_elementsexclude_text_elements布尔值False不提及图中文字不描述图像中的文本忽略图片中的标语
specify_depth_of_fieldspecify_depth_of_field布尔值False描述景深效果指定景深和焦点信息"背景虚化效果"
specify_lighting_sourcesspecify_lighting_sources布尔值False说明光源类型指定光照来源"使用人工照明"
avoid_ambiguous_languageavoid_ambiguous_language布尔值False使用明确的词汇避免模糊表达不用"可能"、"似乎"
classify_image_as_sfw_nsfwclassify_image_as_sfw_nsfw布尔值False标注内容分级分类图像内容等级标注"安全内容"
describe_key_elements_onlydescribe_key_elements_only布尔值False只描述重要元素仅描述关键要素突出主要内容

3.2 ExtraOptionsNode 节点(额外选项节点)

这个节点就像一个"选项打包器",把各种描述要求打包成一个整体。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
enable_extra_optionsenable_extra_options布尔值True总开关,控制是否使用额外选项启用扩展选项的主开关True开启所有额外功能
character_namecharacter_name文本框-图片中人物的名字角色名称用于模板替换输入人物名字如"张三"

其他17个额外选项参数与JoyCaption2节点相同

3.3 JoyCaption2_simple 节点(简化版)

这个节点就像一个"简化版图片描述师",功能精简但更容易使用。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imageimageIMAGE类型-要分析的图片输入的图像张量连接图片加载节点
llm_modelllm_model选择列表unsloth/Meta-Llama-3.1-8B-Instruct选择AI大脑语言模型选择使用默认即可
dtypedtype选择列表nf4运行模式数据类型选择nf4节省显存
caption_typecaption_type选择列表Descriptive描述风格文本生成类型选择合适的风格
caption_lengthcaption_length选择列表medium-length描述长度文本长度控制根据需要选择
user_promptuser_prompt文本框-自定义要求用户自定义提示输入特殊要求
max_new_tokensmax_new_tokens整数260最大词数生成文本最大长度260通常够用
top_ptop_p浮点数0.8创意程度核采样参数0.8平衡效果
temperaturetemperature浮点数0.6随机程度温度参数0.6稳定输出
cache_modelcache_model布尔值False是否缓存模型模型缓存选项True加速但占内存
devicedevice选择列表cuda:0显卡选择GPU设备选择选择可用显卡
extra_options_nodeextra_options_node文本-外部额外选项来自ExtraOptionsNode的输入连接ExtraOptionsNode输出

3.4 JoyCaptionBetaOne_Full 节点(Beta版完整版)

这个节点是最新版本的"超级图片描述师",功能更强大,效果更好。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imageimageIMAGE类型-要分析的图片输入图像张量连接图片加载节点
caption_typecaption_type选择列表Descriptive描述类型文本生成类型选择有更多专业选项
caption_lengthcaption_length选择列表medium-length描述长度文本长度控制支持数字精确控制
quantization_modequantization_mode选择列表bf16模型精度模式量化模式选择bf16质量好,nf4省显存
custom_promptcustom_prompt文本框-自定义提示词覆盖默认提示的自定义输入完全自定义描述要求
character_namecharacter_name文本框-人物角色名称用于名称替换的角色名输入图中人物名字
temperaturetemperature浮点数0.6创意随机度生成随机性控制0.6稳定,更高更有创意
top_ptop_p浮点数0.9词汇选择范围核采样概率阈值0.9平衡多样性
max_new_tokensmax_new_tokens整数512最大生成词数生成文本的最大长度512支持更长描述
devicedevice选择列表cuda:0运行设备GPU设备选择选择合适的显卡
cache_modelcache_model布尔值True模型缓存是否在内存中缓存模型True提高后续速度
enable_liger_kernelenable_liger_kernel布尔值True加速内核启用LIGER加速内核True提升运行速度

Beta版额外选项(25个):

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
extra_option_0_if_there_is_aextra_option_0_if_there_is_a布尔值False使用指定名字称呼人物角色名称替换选项开启后用character_name替换
extra_option_1_do_not_includeextra_option_1_do_not_include布尔值False不描述固有特征排除不可变属性不描述种族、性别等
extra_option_2_include_informaextra_option_2_include_informa布尔值False包含光照信息描述光线情况说明光线类型和方向
extra_option_3_include_informaextra_option_3_include_informa布尔值False包含拍摄角度描述相机角度说明俯视、仰视等
extra_option_4_include_informaextra_option_4_include_informa布尔值False提及水印情况说明水印存在指出是否有水印
extra_option_5_include_informaextra_option_5_include_informa布尔值False说明压缩痕迹描述JPEG压缩效果指出图片压缩情况
extra_option_6_if_it_is_a_photextra_option_6_if_it_is_a_phot布尔值False推测相机参数包含拍摄技术信息推测光圈、快门等
extra_option_7_do_not_includeextra_option_7_do_not_include布尔值False保持内容健康排除成人内容生成适合所有人的内容
extra_option_8_do_not_mentionextra_option_8_do_not_mention布尔值False不提及分辨率排除分辨率信息不说"高清"、"低分辨率"
extra_option_9_you_must_includextra_option_9_you_must_includ布尔值False评价美学质量包含审美评价说明图片美观程度
extra_option_10_include_informextra_option_10_include_inform布尔值False描述构图风格包含构图技巧信息说明三分法、对称等
extra_option_11_do_not_mentionextra_option_11_do_not_mention布尔值False忽略图中文字不描述文本内容不提及图片中的文字
extra_option_12_specify_the_deextra_option_12_specify_the_de布尔值False说明景深效果描述焦点和虚化说明前景清晰背景模糊
extra_option_13_if_applicable_extra_option_13_if_applicable_布尔值False区分光源类型说明光照来源区分自然光和人工光
extra_option_14_do_not_use_anyextra_option_14_do_not_use_any布尔值False使用明确语言避免模糊表达不用"可能"、"似乎"
extra_option_15_include_whetheextra_option_15_include_whethe布尔值False标注内容等级分类图像内容标注安全级别
extra_option_16_only_describe_extra_option_16_only_describe_布尔值False只描述重点突出关键元素专注主要内容
extra_option_17_if_it_is_a_worextra_option_17_if_it_is_a_wor布尔值False不提及艺术家排除作者信息不说明作者和作品名
extra_option_18_identify_the_iextra_option_18_identify_the_i布尔值False说明图片方向描述横竖比例说明横版、竖版、方形
extra_option_19_use_vulgar_slaextra_option_19_use_vulgar_sla布尔值False使用粗俗语言包含不雅词汇使用直白粗俗的表达
extra_option_20_do_not_use_polextra_option_20_do_not_use_pol布尔值False避免委婉表达使用直接语言不用礼貌的委婉说法
extra_option_21_include_informextra_option_21_include_inform布尔值False说明人物年龄包含年龄信息推测并说明年龄段
extra_option_22_mention_whetheextra_option_22_mention_whethe布尔值False说明拍摄距离描述镜头距离说明特写、远景等
extra_option_23_do_not_mentionextra_option_23_do_not_mention布尔值False不描述情绪氛围排除主观感受不说"温馨"、"忧郁"
extra_option_24_explicitly_speextra_option_24_explicitly_spe布尔值False明确拍摄高度说明视角高度说明平视、俯视、仰视
extra_option_25_if_there_is_a_extra_option_25_if_there_is_a_布尔值False必须提及水印强制说明水印有水印时必须指出

3.5 ExtraOptionsNode_Beta 节点(Beta版额外选项)

这个节点是Beta版的"选项打包器",功能更丰富。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
enable_extra_optionsenable_extra_options布尔值True额外选项总开关启用扩展功能的主控制True开启所有额外功能
character_namecharacter_name文本框-人物角色名称用于名称替换的角色名输入图中人物的名字

其他25个额外选项参数与JoyCaptionBetaOne_Full节点相同

3.6 JoyCaptionBetaOne_Simple 节点(Beta版简化版)

这个节点是Beta版的"简化图片描述师",保持强大功能但操作简单。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imageimageIMAGE类型-要分析的图片输入图像张量连接图片加载节点
caption_typecaption_type选择列表Descriptive描述类型文本生成类型选择合适的描述风格
caption_lengthcaption_length选择列表medium-length描述长度文本长度控制根据需要选择长度
quantization_modequantization_mode选择列表bf16模型精度量化模式选择bf16质量好
custom_promptcustom_prompt文本框-自定义提示覆盖默认的自定义提示输入特殊要求
temperaturetemperature浮点数0.6创意程度生成随机性控制0.6稳定输出
top_ptop_p浮点数0.9词汇范围核采样参数0.9平衡效果
max_new_tokensmax_new_tokens整数512最大词数生成文本最大长度512支持长描述
devicedevice选择列表cuda:0运行设备GPU设备选择选择合适显卡
cache_modelcache_model布尔值True模型缓存是否缓存模型True提升速度
extra_options_strextra_options_str文本-外部额外选项来自ExtraOptionsNode_Beta的输入连接额外选项节点
enable_liger_kernel_optenable_liger_kernel_opt布尔值True加速内核选项启用LIGER加速True提升性能

4. 使用技巧和建议

4.1 选择合适的版本

  1. Alpha Two版本:稳定可靠,适合日常使用
  2. Beta One版本:功能更强,效果更好,推荐新用户使用
  3. Full版本:功能完整,适合专业用户
  4. Simple版本:操作简单,适合快速使用

4.2 显存优化建议

  1. 显存不足19GB:使用nf4模式
  2. 显存充足:使用bf16模式获得最佳效果
  3. 多张显卡:选择合适的device参数
  4. 显存紧张:关闭cache_model选项

4.3 描述类型选择技巧

  1. Descriptive:适合一般图片描述
  2. Training Prompt:适合AI绘画训练数据
  3. Booru tag list:适合动漫图片标注
  4. Art Critic:适合艺术作品分析
  5. Product Listing:适合商品图片描述

4.4 参数调优建议

  1. temperature:0.6稳定,0.8有创意,1.0很随机
  2. top_p:0.8-0.9平衡,0.95更多样
  3. max_new_tokens:260够用,512支持长文本
  4. caption_length:根据实际需要选择

5. 常见问题解答

Q1:显存不够怎么办?

A:

  • 使用nf4模式而不是bf16
  • 关闭cache_model选项
  • 减少max_new_tokens数值
  • 使用Simple版本节点

Q2:生成的描述不准确怎么办?

A:

  • 尝试使用Beta One版本
  • 调整temperature参数(降低获得更稳定结果)
  • 使用custom_prompt自定义要求
  • 选择合适的caption_type

Q3:如何加速生成过程?

A:

  • 开启cache_model选项
  • 安装liger-kernel加速包
  • 使用bf16模式(如果显存够用)
  • 启用enable_liger_kernel选项

Q4:额外选项怎么使用?

A:

  • Full版本:直接在节点上勾选需要的选项
  • Simple版本:需要配合ExtraOptionsNode使用
  • 根据需要选择合适的额外选项
  • character_name用于替换描述中的人物名称

Q5:不同描述类型有什么区别?

A:

  • Descriptive:正式详细的描述
  • Straightforward:直接简洁的描述
  • Stable Diffusion Prompt:适合AI绘画的提示词
  • Danbooru tag list:动漫风格的标签列表
  • Art Critic:艺术评论风格的分析

6. 实用工作流示例

6.1 基础图片描述工作流

  1. 加载图片 → JoyCaptionBetaOne_Simple
  2. 设置caption_type为"Descriptive"
  3. 选择合适的caption_length
  4. 运行获得描述文字

6.2 专业标注工作流

  1. 加载图片 → JoyCaptionBetaOne_Full
  2. 开启多个额外选项
  3. 设置character_name(如有人物)
  4. 使用"Training Prompt"类型
  5. 获得专业训练数据

6.3 批量处理工作流

  1. 使用图片批处理节点
  2. 连接JoyCaption2节点
  3. 开启cache_model加速
  4. 设置合适的参数批量处理

7. 总结

ComfyUI Joy Caption插件是一个功能强大的图片描述生成工具,通过6个不同功能的节点,你可以:

  • 自动生成高质量的图片描述文字
  • 支持多种专业用途和描述风格
  • 灵活控制描述的长度和详细程度
  • 优化显存使用适配不同配置
  • 批量处理大量图片

掌握这个插件,你就能在ComfyUI中实现专业级的图片自动标注和描述生成,大大提高工作效率!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号