ComfyUI DagThomas 插件完全教程
1. 插件简介
插件地址: https://github.com/dagthomas/comfyui_dagthomas
这个插件就像是给 ComfyUI 装了一个超级智能的文字助手!它能帮你:
- 自动写画面描述:就像有个专业摄影师在旁边告诉你怎么拍照
- 分析图片内容:把图片"看懂"然后用文字描述出来
- 随机生成创意:像抽盲盒一样给你惊喜的画面想法
- 连接各种AI大脑:可以用GPT、谷歌的AI、本地AI等等
简单说,这个插件让你不用绞尽脑汁想怎么描述画面,AI帮你搞定!
2. 如何安装
方法一:ComfyUI管理器安装(推荐)
- 打开ComfyUI
- 点击"Manager"按钮
- 搜索"dagthomas"
- 点击安装
方法二:手动安装
- 打开ComfyUI的安装文件夹
- 进入
custom_nodes文件夹 - 用git下载:
git clone https://github.com/dagthomas/comfyui_dagthomas.git - 重启ComfyUI
环境变量设置(重要!)
如果要用GPT功能,需要设置:
OPENAI_API_KEY=你的OpenAI密钥
如果要用谷歌AI功能,需要设置:
GEMINI_API_KEY=你的Gemini密钥
3. 节点详细解析
3.1 PromptGenerator(自动画面描述生成器)
这个节点就像一个会写作文的机器人,你告诉它几个关键词,它就能给你写出完整的画面描述。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 种子 | seed | 0-1125899906842624 | 随机数 | 就像抽奖的号码,同样的号码会得到同样的结果 | 随机数种子,控制生成的随机性 | 设置123,每次都会生成相同的描述 |
| 自定义内容 | custom | 文本 | 空或特定风格 | 在描述前面加上你想要的特殊内容 | 自定义前缀文本 | 输入"赛博朋克风格"会在所有描述前加上这个 |
| 主体对象 | subject | 文本 | 空或具体人物 | 画面的主角是谁或什么 | 主要描述对象 | 输入"美丽的女孩"替换默认的人物描述 |
| 艺术形式 | artform | 列表选择 | photography | 选择是拍照还是画画等艺术类型 | 艺术表现形式 | 选"photography"生成摄影描述,选"painting"生成绘画描述 |
| 照片类型 | photo_type | 列表选择 | random | 什么样的照片风格,比如肖像、风景等 | 摄影类型分类 | 选"portrait"专门生成人像照片描述 |
| 身材类型 | body_types | 列表选择 | random | 人物的身材特征 | 人物体型描述 | 选"athletic"生成运动员身材的描述 |
| 默认标签 | default_tags | 列表选择 | random | 基础的人物描述,比如男人、女人等 | 基础人物标签 | 选"woman"会生成女性相关描述 |
| 角色职业 | roles | 列表选择 | random | 人物的职业或身份 | 人物角色设定 | 选"doctor"会生成医生形象的描述 |
| 发型 | hairstyles | 列表选择 | random | 头发的样式 | 发型描述 | 选"long hair"生成长发造型描述 |
| 额外细节 | additional_details | 列表选择 | random | 一些特殊的细节描述 | 补充细节信息 | 会添加一些有趣的小细节让画面更生动 |
| 摄影风格 | photography_styles | 列表选择 | random | 摄影的技术风格 | 摄影技法风格 | 选"macro photography"生成微距摄影描述 |
| 设备器材 | device | 列表选择 | random | 用什么相机或设备拍摄 | 拍摄设备 | 选"Canon EOS R5"会在描述中提到用这个相机拍摄 |
| 摄影师 | photographer | 列表选择 | random | 模仿哪个著名摄影师的风格 | 摄影师风格 | 选"Annie Leibovitz"会模仿她的拍摄风格 |
| 艺术家 | artist | 列表选择 | random | 模仿哪个艺术家的绘画风格 | 艺术家风格 | 选"Van Gogh"会生成梵高风格的描述 |
| 数字艺术形式 | digital_artform | 列表选择 | random | 数字艺术的类型 | 数字艺术分类 | 选"3D render"生成三维渲染图描述 |
| 地点场所 | place | 列表选择 | random | 画面发生的地点 | 场景位置 | 选"beach"会生成海滩场景 |
| 灯光效果 | lighting | 列表选择 | random | 光线的效果和氛围 | 照明设置 | 选"golden hour"生成黄金时段的光线效果 |
| 服装穿着 | clothing | 列表选择 | random | 人物穿什么衣服 | 服装描述 | 选"elegant dress"生成优雅裙装描述 |
| 构图方式 | composition | 列表选择 | random | 画面的构图和角度 | 构图技法 | 选"rule of thirds"使用三分法构图 |
| 姿势动作 | pose | 列表选择 | random | 人物的姿势和动作 | 人物姿态 | 选"sitting"生成坐着的姿势 |
| 背景环境 | background | 列表选择 | random | 画面的背景是什么样的 | 背景设置 | 选"blurred background"生成虚化背景效果 |
3.2 GPT4VisionNode(GPT-4图片分析器)
这个节点就像给你请了个专业的艺术评论家,它能"看懂"图片然后用文字详细描述出来。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | images | IMAGE类型 | 必填 | 要分析的图片,就像给评论家看照片 | 输入图像数据 | 连接任何图片节点 |
| 详细描述 | happy_talk | True/False | True | 开启后会写很详细的描述,关闭后只写简单的 | 控制描述详细程度 | True=写作文,False=写要点 |
| 压缩输出 | compress | True/False | False | 让描述变短一些,节省字数 | 压缩输出长度 | 开启后描述会更简洁 |
| 压缩程度 | compression_level | soft/medium/hard | soft | 压缩的强度,hard最短 | 压缩级别 | hard=最简洁,soft=稍微简化 |
| 电影海报模式 | poster | True/False | False | 生成电影海报风格的描述 | 海报风格输出 | 开启后会生成像电影海报的描述格式 |
| 自定义提示词 | custom_base_prompt | 文本 | 空 | 告诉AI你想要什么样的描述风格 | 自定义基础提示 | 输入"用诗歌的方式描述"会得到诗意的描述 |
| 自定义标题 | custom_title | 文本 | 空 | 在海报模式下给作品起个标题 | 海报标题设置 | 输入"神秘森林"作为海报标题 |
| 覆盖指令 | override | 文本 | 空 | 完全替换默认的分析指令 | 覆盖默认提示 | 输入完全自定义的分析要求 |
3.3 GPT4MiniNode(GPT-4文本增强器)
这个节点就像一个文字魔法师,你给它一段简单的描述,它能帮你扩展成丰富详细的画面描述。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入文本 | input_text | 文本 | 必填 | 你想要扩展的简单描述 | 输入文本内容 | 输入"一个女孩在花园里"会扩展成详细场景 |
| 详细描述 | happy_talk | True/False | True | 是否生成详细丰富的描述 | 控制输出详细度 | True生成电影级描述,False生成简洁描述 |
| 压缩输出 | compress | True/False | False | 让输出变短一些 | 压缩输出长度 | 开启后会限制字数 |
| 压缩程度 | compression_level | soft/medium/hard | soft | 压缩的强度级别 | 压缩级别设置 | hard=最简洁,soft=适度简化 |
| 海报模式 | poster | True/False | False | 生成电影海报风格的描述 | 海报格式输出 | 开启后按海报格式组织描述 |
| 自定义基础提示 | custom_base_prompt | 文本 | 空 | 自定义AI的工作方式 | 自定义提示词 | 输入"用科幻风格描述"改变输出风格 |
| 自定义标题 | custom_title | 文本 | 空 | 海报模式下的标题 | 海报标题 | 输入"未来世界"作为海报标题 |
| 覆盖指令 | override | 文本 | 空 | 完全自定义AI指令 | 覆盖默认指令 | 输入完全自定义的处理要求 |
3.4 OllamaNode(本地AI文本处理器)
这个节点让你用自己电脑上的AI来处理文本,不需要联网,就像在家里养了个AI助手。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入文本 | input_text | 文本 | 必填 | 要处理的文本内容 | 输入文本数据 | 输入任何想要AI处理的文字 |
| 详细描述 | happy_talk | True/False | True | 是否生成详细描述 | 控制输出详细度 | True=详细,False=简洁 |
| 压缩输出 | compress | True/False | False | 压缩输出长度 | 输出长度控制 | 开启后会限制输出字数 |
| 压缩程度 | compression_level | soft/medium/hard | soft | 压缩强度 | 压缩级别 | hard最短,soft适中 |
| 海报模式 | poster | True/False | False | 海报风格输出 | 海报格式化 | 生成电影海报式描述 |
| 自定义基础提示 | custom_base_prompt | 文本 | 空 | 自定义AI工作方式 | 自定义提示词 | 告诉AI用什么风格处理 |
| 自定义模型 | custom_model | 文本 | llama3.1:8b | 使用哪个本地AI模型 | 本地模型选择 | 可以换成其他已安装的模型 |
| Ollama地址 | ollama_url | URL | localhost:11434 | 本地AI服务的地址 | 服务端点地址 | 通常不需要改动 |
| 自定义标题 | custom_title | 文本 | 空 | 海报模式标题 | 海报标题设置 | 海报模式下的标题文字 |
| 覆盖指令 | override | 文本 | 空 | 覆盖默认指令 | 自定义指令覆盖 | 完全自定义处理指令 |
3.5 Gpt4VisionCloner(GPT-4图片克隆分析器)
这个节点像个专业的图片分析师,能把图片内容分解成详细的JSON格式数据,还能把多张图片融合在一起。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | images | IMAGE类型 | 必填 | 要分析的图片 | 输入图像数据 | 连接图片节点 |
| 淡化百分比 | fade_percentage | 0.1-50.0 | 15.0 | 多张图片融合时的过渡效果强度 | 图像融合过渡度 | 15.0表示15%的区域用于过渡融合 |
| 自定义提示 | custom_prompt | 文本 | 空 | 自定义分析指令 | 自定义分析提示 | 告诉AI用什么方式分析图片 |
3.6 PGSD3LatentGenerator(SD3潜在空间生成器)
这个节点就像一个画布准备器,为Stable Diffusion 3创建合适尺寸的"空白画布"。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 宽度 | width | 0-最大分辨率 | 1024 | 图片的宽度像素 | 图像宽度设置 | 1024表示1024像素宽 |
| 高度 | height | 0-最大分辨率 | 1024 | 图片的高度像素 | 图像高度设置 | 1024表示1024像素高 |
| 批次大小 | batch_size | 1-4096 | 1 | 一次生成几张图 | 批处理数量 | 设置4会一次准备4张画布 |
3.7 APNLatent(高级潜在空间生成器)
这个节点是PGSD3的升级版,能自动调整尺寸比例,就像一个智能的画布助手。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 宽度 | width | 0-最大分辨率 | 1024 | 图片宽度 | 图像宽度 | 设置图片的宽度像素 |
| 高度 | height | 0-最大分辨率 | 1024 | 图片高度 | 图像高度 | 设置图片的高度像素 |
| 批次大小 | batch_size | 1-4096 | 1 | 一次生成数量 | 批处理大小 | 同时生成的图片数量 |
| 百万像素缩放 | megapixel_scale | 0.1-2.0 | 1.0 | 控制图片的总像素数 | 像素密度控制 | 1.0=标准,2.0=双倍像素 |
| 宽高比 | aspect_ratio | 1:1/3:2/4:3/16:9/21:9 | 1:1 | 图片的长宽比例 | 纵横比设置 | 16:9适合宽屏,1:1适合方形 |
| 竖屏模式 | is_portrait | True/False | False | 是否生成竖屏图片 | 方向设置 | True=竖屏,False=横屏 |
3.8 RandomIntegerNode(随机数生成器)
这个节点就像一个数字抽奖机,能在指定范围内随机选择数字。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 最小值 | min_value | -10亿到10亿 | 0 | 随机数的最小值 | 随机范围下限 | 设置0表示最小不能小于0 |
| 最大值 | max_value | -10亿到10亿 | 10 | 随机数的最大值 | 随机范围上限 | 设置100表示最大不超过100 |
| 种子 | seed | -1到2^32-1 | -1 | 控制随机结果的种子 | 随机种子 | -1=真随机,固定数字=固定结果 |
3.9 StringMergerNode(文本合并器)
这个节点像个文字拼接工具,能把两段文字智能地合并在一起。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本1 | string1 | 文本 | 必填 | 第一段要合并的文字 | 第一个输入字符串 | 输入"美丽的女孩" |
| 文本2 | string2 | 文本 | 必填 | 第二段要合并的文字 | 第二个输入字符串 | 输入"在花园里" |
| 使用AND连接 | use_and | True/False | False | 用"AND"还是逗号连接 | 连接符选择 | True="美丽的女孩 AND 在花园里" |
3.10 FlexibleStringMergerNode(灵活文本合并器)
这个节点是StringMerger的升级版,能同时合并最多4段文字。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本1 | string1 | 文本 | 必填 | 第一段文字 | 主要输入文本 | 输入主要描述内容 |
| 文本2 | string2 | 文本 | 可选 | 第二段文字 | 可选输入文本 | 输入补充描述 |
| 文本3 | string3 | 文本 | 可选 | 第三段文字 | 可选输入文本 | 输入更多细节 |
| 文本4 | string4 | 文本 | 可选 | 第四段文字 | 可选输入文本 | 输入最后的补充 |
3.11 SentenceMixerNode(句子混合器)
这个节点就像一个文字搅拌机,能把多段文字打散重新组合,创造出新的表达方式。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入1 | input1 | 文本 | 必填 | 第一段要混合的文字 | 主要输入文本 | 输入一段完整的描述 |
| 输入2 | input2 | 文本 | 可选 | 第二段要混合的文字 | 可选输入文本 | 输入另一段描述 |
| 输入3 | input3 | 文本 | 可选 | 第三段要混合的文字 | 可选输入文本 | 输入第三段描述 |
| 输入4 | input4 | 文本 | 可选 | 第四段要混合的文字 | 可选输入文本 | 输入第四段描述 |
3.12 DynamicStringCombinerNode(动态文本组合器)
这个节点像个智能文字管家,能根据你的需要组合不同数量的文本。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入数量 | num_inputs | 1-5 | 2 | 要组合几段文字 | 输入数量控制 | 选3表示组合3段文字 |
| 用户文本 | user_text | 文本 | 必填 | 你自己写的文字内容 | 用户自定义文本 | 输入你想要的描述 |
| 文本1-5 | string1-5 | 文本 | 可选 | 要组合的各段文字 | 可选输入文本 | 根据num_inputs决定用几个 |
3.13 CustomPromptLoader(自定义提示词加载器)
这个节点就像一个文件管理器,能读取你保存的提示词文件。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词文件 | prompt_file | 文件列表 | 选择文件 | 选择要加载的提示词文件 | 文件选择器 | 从下拉列表选择.txt文件 |
3.14 FileReaderNode(文件读取器)
这个节点像个随机抽取器,能从JSON文件中随机选择内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文件路径 | file_path | 文件路径 | 默认路径 | JSON文件的位置 | 文件路径设置 | 指向包含提示词的JSON文件 |
| 数量 | amount | 1-100 | 10 | 随机选择几个内容 | 随机选择数量 | 10表示随机选10个提示词 |
| 自定义标签 | custom_tag | 文本 | 空 | 在选择的内容前加上标签 | 自定义前缀标签 | 输入"风景:"会在每个内容前加上 |
| 种子 | seed | 0-最大值 | 0 | 控制随机选择的种子 | 随机种子控制 | 0=真随机,固定值=固定结果 |
3.15 GeminiTextOnly(谷歌AI文本处理器)
这个节点让你使用谷歌的Gemini AI来处理文本,功能强大且支持多种模型。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 自定义提示 | custom_prompt | 文本 | 必填 | 告诉AI要做什么 | 自定义提示词 | 输入"把这段话改写成诗歌" |
| 附加提示 | additive_prompt | 文本 | 可选 | 在主提示前加的内容 | 附加提示内容 | 输入额外的指令 |
| 动态提示 | dynamic_prompt | True/False | False | 是否使用动态替换功能 | 动态提示开关 | 开启后可以用##TAG##等占位符 |
| 标签 | tag | 文本 | ohwx man | 动态替换的标签内容 | 标签替换内容 | 会替换提示中的##TAG## |
| 性别 | sex | 文本 | male | 性别信息 | 性别设置 | 会替换提示中的##SEX## |
| 字数 | words | 文本 | 100 | 期望的输出字数 | 输出长度控制 | 会替换提示中的##WORDS## |
| 代词 | pronouns | 文本 | him, his | 使用的代词 | 代词设置 | 会替换提示中的##PRONOUNS## |
| Gemini模型 | gemini_model | 模型列表 | gemini-2.0-flash-exp | 使用哪个Gemini模型 | 模型选择 | 不同模型有不同能力 |
3.16 GeminiCustomVision(谷歌AI图片分析器)
这个节点使用谷歌的Gemini AI来分析图片,支持图片融合和自定义分析。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | images | IMAGE类型 | 必填 | 要分析的图片 | 输入图像数据 | 连接图片节点 |
| 自定义提示 | custom_prompt | 文本 | 空 | 自定义分析指令 | 自定义分析提示 | 告诉AI怎么分析图片 |
| 附加提示 | additive_prompt | 文本 | 空 | 附加的分析指令 | 附加提示内容 | 补充分析要求 |
| 动态提示 | dynamic_prompt | True/False | False | 动态替换功能 | 动态提示开关 | 开启后支持占位符替换 |
| 标签 | tag | 文本 | ohwx man | 标签替换内容 | 标签设置 | 替换##TAG##占位符 |
| 性别 | sex | 文本 | male | 性别设置 | 性别信息 | 替换##SEX##占位符 |
| 字数 | words | 文本 | 100 | 输出字数控制 | 长度控制 | 替换##WORDS##占位符 |
| 代词 | pronouns | 文本 | him, his | 代词设置 | 代词信息 | 替换##PRONOUNS##占位符 |
| 淡化百分比 | fade_percentage | 0.1-50.0 | 15.0 | 多图融合的过渡强度 | 图像融合度 | 控制图片融合的自然程度 |
| Gemini模型 | gemini_model | 模型列表 | gemini-2.0-flash-exp | 使用的模型 | 模型选择 | 选择合适的Gemini模型 |
3.17 Gpt4CustomVision(GPT-4自定义图片分析器)
这个节点是GPT4VisionNode的自定义版本,提供更多的个性化分析选项。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | images | IMAGE类型 | 必填 | 要分析的图片 | 输入图像数据 | 连接任何图片节点 |
| 自定义提示 | custom_prompt | 文本 | 空 | 自定义分析方式 | 自定义分析提示 | 输入"用艺术评论的角度分析" |
| 附加提示 | additive_prompt | 文本 | 空 | 附加分析要求 | 附加提示内容 | 补充特殊要求 |
| 动态提示 | dynamic_prompt | True/False | False | 动态替换功能 | 动态提示开关 | 支持占位符自动替换 |
| 标签 | tag | 文本 | ohwx man | 标签内容 | 标签替换 | 替换##TAG##占位符 |
| 性别 | sex | 文本 | male | 性别信息 | 性别设置 | 替换##SEX##占位符 |
| 字数 | words | 文本 | 100 | 输出字数 | 长度控制 | 替换##WORDS##占位符 |
| 代词 | pronouns | 文本 | him, his | 代词设置 | 代词信息 | 替换##PRONOUNS##占位符 |
| 淡化百分比 | fade_percentage | 0.1-50.0 | 15.0 | 图片融合强度 | 融合过渡度 | 多图融合时的自然过渡 |
3.18 OllamaVisionNode(本地AI图片分析器)
这个节点让你用本地的AI模型来分析图片,完全离线工作。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图片输入 | images | IMAGE类型 | 必填 | 要分析的图片 | 输入图像数据 | 连接图片节点 |
| 自定义提示 | custom_prompt | 文本 | 空 | 分析指令 | 自定义分析提示 | 告诉AI怎么看图片 |
| 附加提示 | additive_prompt | 文本 | 空 | 附加指令 | 附加提示内容 | 补充分析要求 |
| 动态提示 | dynamic_prompt | True/False | False | 动态替换 | 动态提示开关 | 支持占位符功能 |
| 标签 | tag | 文本 | ohwx man | 标签内容 | 标签设置 | 替换##TAG## |
| 性别 | sex | 文本 | male | 性别信息 | 性别设置 | 替换##SEX## |
| 字数 | words | 文本 | 100 | 字数控制 | 长度控制 | 替换##WORDS## |
| 代词 | pronouns | 文本 | him, his | 代词信息 | 代词设置 | 替换##PRONOUNS## |
| 淡化百分比 | fade_percentage | 0.1-50.0 | 15.0 | 图片融合度 | 融合强度 | 多图融合过渡 |
| 自定义模型 | custom_model | 文本 | llava-llama3:latest | 本地模型名称 | 模型选择 | 使用的本地视觉模型 |
| Ollama地址 | ollama_url | URL | localhost:11434 | 本地服务地址 | 服务端点 | 本地Ollama服务地址 |
4. 动态生成的分类节点(23个)
这些节点都是基于APNextNode自动生成的,每个都对应一个特定的创意分类。它们就像不同主题的创意宝库,能为你的画面描述添加各种元素。
4.1 ArchitecturePromptNode(建筑风格节点)
专门添加建筑相关的元素,比如建筑师风格、建筑类型、材料等。
4.2 ArtPromptNode(艺术风格节点)
添加各种艺术风格元素,包括绘画技法、调色板、图案等。
4.3 ArtistPromptNode(艺术家风格节点)
模仿著名艺术家的风格,包括概念艺术家、插画师、画家等。
4.4 BrandsPromptNode(品牌风格节点)
添加各种品牌相关的视觉元素和风格。
4.5 CharacterPromptNode(角色类型节点)
添加各种角色类型,包括动漫、奇幻、科幻、超级英雄等。
4.6 CinematicPromptNode(电影风格节点)
添加电影相关元素,包括导演风格、镜头类型、色彩分级等。
4.7 FashionPromptNode(时尚风格节点)
添加时尚元素,包括服装、配饰、发型、设计师风格等。
4.8 FeelingsPromptNode(情感氛围节点)
添加各种情感氛围,比如恐怖、浪漫、忧郁、不安等。
4.9 GeographyPromptNode(地理位置节点)
添加地理相关元素,包括国家、民族、地区等。
4.10 HumanPromptNode(人类活动节点)
添加人类相关活动,包括节庆、群体、爱好、职业等。
4.11 InteractionPromptNode(互动关系节点)
添加人物之间的互动关系,比如情侣互动、群体互动等。
4.12 KeywordsPromptNode(关键词节点)
添加各种修饰关键词,包括史诗、故障、流行趋势等。
4.13 PeoplePromptNode(人物特征节点)
添加人物特征,包括原型、身材、表情、眼色等。
4.14 PhotographyPromptNode(摄影技术节点)
添加摄影相关元素,包括相机、镜头、胶片、照明等。
4.15 PlotsPromptNode(情节主题节点)
添加各种故事情节主题,包括动作、恐怖、浪漫、科幻等。
4.16 PosesPromptNode(姿势动作节点)
添加各种人物姿势和动作描述。
4.17 ScenePromptNode(场景环境节点)
添加场景相关元素,包括植物、纹理、天气、场景修饰等。
4.18 SciencePromptNode(科学元素节点)
添加科学相关元素,包括天文、元素、数学、医学等。
4.19 StuffPromptNode(物品道具节点)
添加各种物品和道具,包括城市、日常用品、科幻道具等。
4.20 TimePromptNode(时间元素节点)
添加时间相关元素,包括世纪、年代、时代等。
4.21 TypographyPromptNode(字体排版节点)
添加字体和排版相关元素。
4.22 VehiclePromptNode(交通工具节点)
添加各种交通工具,包括汽车、经典车型等。
4.23 VideoGamePromptNode(游戏风格节点)
添加游戏相关元素,包括游戏设计师、引擎、游戏类型等。
所有分类节点的通用参数
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | 必填 | 基础的画面描述 | 基础提示文本 | 输入"一个美丽的女孩" |
| 分隔符 | separator | 文本 | , | 用什么符号连接添加的内容 | 内容分隔符 | 通常用逗号分隔 |
| 字符串输入 | string | 文本 | 可选 | 额外的文本输入 | 可选文本输入 | 可以连接其他节点的输出 |
| 种子 | seed | 0-最大值 | 0 | 控制随机选择的种子 | 随机种子 | 固定种子得到固定结果 |
| 属性开关 | attributes | True/False | False | 是否添加详细属性描述 | 属性详细化开关 | 开启后会添加更多细节描述 |
| 各分类字段 | 动态生成 | None/Random/Multiple Random/具体选项 | None | 每个分类都有自己的选项 | 分类特定选项 | None=不添加,Random=随机选一个 |
5. 使用技巧和建议
5.1 新手入门建议
- 从PromptGenerator开始:这是最容易上手的节点,就像一个智能的画面描述助手
- 先用默认设置:所有参数都有合理的默认值,不用一开始就全部调整
- 逐步添加元素:先生成基础描述,再用分类节点添加特殊元素
- 保存好的结果:遇到满意的描述记得保存,可以用CustomPromptLoader重复使用
5.2 高级使用技巧
-
节点链式组合:
- PromptGenerator → 分类节点 → StringMerger → 最终输出
- 这样能创造出层次丰富的描述
-
种子控制技巧:
- 用相同种子可以得到一致的随机结果
- 在RandomIntegerNode中生成种子,然后分发给其他节点
-
图片分析流程:
- 先用GPT4VisionNode分析图片
- 再用GPT4MiniNode优化描述
- 最后用分类节点添加创意元素
-
本地AI使用:
- OllamaNode适合不想花钱用API的用户
- 需要先安装Ollama并下载模型
- 速度较慢但完全免费
5.3 参数调优建议
-
压缩设置:
- 生成长描述时用soft压缩
- 需要简洁描述时用hard压缩
- 不确定时选择medium
-
淡化百分比:
- 多图融合时,15%通常效果最好
- 想要更明显过渡用25-30%
- 想要更自然融合用10%以下
-
批次大小:
- 显存充足时可以设置较大批次
- 显存不足时保持1-2的小批次
6. 常见问题解答
6.1 安装和配置问题
Q: 安装后找不到节点怎么办?
A: 重启ComfyUI,确保插件文件夹在custom_nodes目录下,检查是否有错误信息。
Q: GPT节点报错"API key not found"?
A: 需要设置环境变量OPENAI_API_KEY,或者在系统环境变量中添加你的OpenAI API密钥。
Q: Ollama节点无法连接?
A: 确保Ollama服务正在运行,在终端输入ollama serve启动服务。
6.2 使用问题
Q: 生成的描述太长了怎么办?
A: 开启compress选项,选择medium或hard压缩级别。
Q: 随机结果每次都不一样?
A: 设置固定的seed值,相同种子会产生相同结果。
Q: 图片分析不准确?
A: 尝试使用custom_base_prompt自定义分析指令,告诉AI你想要什么样的分析结果。
Q: 分类节点选项太多不知道选什么?
A: 选择"Random"让AI随机选择,或者选择"Multiple Random"获得更丰富的组合。
6.3 性能问题
Q: 节点运行很慢?
A:
- GPT节点:检查网络连接,考虑使用GPT-4o-mini而不是GPT-4o
- Ollama节点:确保有足够的显存,考虑使用较小的模型
- 图片处理:减少批次大小,降低图片分辨率
Q: 显存不够用?
A: 减少batch_size,使用较小的图片尺寸,关闭不必要的节点。
7. 创意使用案例
7.1 电影海报生成流程
- 用GPT4VisionNode分析参考图片,开启poster模式
- 用ArchitecturePromptNode添加场景元素
- 用CharacterPromptNode添加角色特征
- 用CinematicPromptNode添加电影风格
- 最终合并生成完整海报描述
7.2 随机创意生成流程
- 用RandomIntegerNode生成随机种子
- 用PromptGenerator生成基础描述
- 随机选择2-3个分类节点添加元素
- 用StringMerger合并所有内容
- 得到完全随机的创意描述
7.3 风格迁移流程
- 用GPT4VisionNode分析源图片
- 用ArtistPromptNode选择目标艺术家风格
- 用GPT4MiniNode重新组织描述
- 生成风格迁移后的画面描述
8. 总结
ComfyUI DagThomas插件是一个功能强大的AI辅助创作工具集,包含41个节点,涵盖了从基础文本处理到高级AI分析的各个方面。
核心优势:
- 🎯 零门槛使用:所有参数都有合理默认值
- 🔄 高度可组合:节点可以自由连接组合
- 🌍 多AI支持:支持GPT、Gemini、Ollama等多种AI
- 🎨 创意丰富:23个分类节点提供海量创意元素
- 💰 成本可控:既有付费API也有免费本地方案
适用人群:
- ComfyUI新手:从PromptGenerator开始学习
- 创意工作者:用分类节点激发灵感
- 技术爱好者:用本地AI节点探索可能性
- 专业用户:用高级节点构建复杂工作流
无论你是想要快速生成画面描述,还是想要深度定制AI工作流,这个插件都能满足你的需求。记住,最好的学习方式就是动手实践,从简单的节点开始,逐步探索更复杂的组合方式!