ComfyUI_ADV_CLIP_emb 插件保姆级教程
1. 插件简介
插件地址: https://github.com/BlenderNeko/ComfyUI_ADV_CLIP_emb
这个插件是专门为 ComfyUI 设计的高级文字理解工具,它的作用就像是一个"超级翻译官"。你知道当你在 ComfyUI 里输入提示词时,AI 需要先理解你说的话,然后才能画出图片。这个插件就是让 AI 更准确、更细致地理解你的提示词。
主要功能:
- 让 AI 更精确地理解你提示词中每个词的重要程度
- 提供多种不同的"理解方式",就像不同的人有不同的理解习惯
- 支持 SDXL 模型的特殊功能
- 可以精确控制图片的尺寸和裁剪参数
能带来什么效果:
- 当你用 (词语:1.5) 这样的权重时,效果更加准确
- 生成的图片更符合你的提示词意图
- 对复杂提示词的理解更加精准
- 支持更高级的图片生成控制
2. 如何安装
方法一:手动安装(推荐)
- 打开你的 ComfyUI 安装目录,找到
custom_nodes文件夹 - 在
custom_nodes文件夹里打开终端/命令行 - 输入命令:
git clone https://github.com/BlenderNeko/ComfyUI_ADV_CLIP_emb.git - 重启 ComfyUI
方法二:ComfyUI Manager 安装
- 在 ComfyUI 界面点击 Manager 按钮
- 搜索 "ADV_CLIP_emb" 或 "Advanced CLIP"
- 点击安装并重启
安装完成后,你就能在节点列表的 "conditioning/advanced" 分类中看到新的节点了。
3. 节点详细解析
3.1 BNK_CLIPTextEncodeAdvanced 节点(高级文字编码器)
这个节点是干嘛的?
这个节点就像一个"超级理解专家",它比普通的文字编码器更聪明。当你输入提示词时,它不仅能理解你说的话,还能按照你选择的方式来理解词语的重要程度。就像同一句话,不同的人会有不同的理解重点一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 文本输入框 | 你的提示词 | 输入你想让AI画的内容描述,就像告诉画家你想要什么 | 输入的提示词文本 | 输入 "a beautiful cat (fluffy:1.2)" |
| clip | clip | CLIP模型连接 | 从CLIP加载器连接 | 连接文字理解工具,就像连接翻译官 | CLIP文本编码器模型 | 从 "Load CLIP" 节点连接过来 |
| token_normalization | token_normalization | none/mean/length/length+mean | length+mean | 决定如何处理长词的权重分配,就像决定一个长句子里每个字的重要性 | 词元权重标准化方法 | 选择 "length+mean" 获得最平衡的效果 |
| weight_interpretation | weight_interpretation | comfy/A1111/compel/comfy++/down_weight | comfy++ | 选择理解权重的方式,就像选择不同的理解风格 | 权重解释算法 | comfy++比较温和,A1111比较激进 |
3.2 BNK_CLIPTextEncodeSDXLAdvanced 节点(SDXL高级文字编码器)
这个节点是干嘛的?
这是专门为 SDXL 模型设计的"双重理解专家"。SDXL 模型有两个大脑来理解文字,这个节点可以分别给两个大脑发送不同的指令,还能调节两个大脑的影响力比例。就像有两个翻译官,你可以给他们不同的任务。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text_l | text_l | 文本输入框 | 详细描述 | 给第一个理解专家的指令,通常写详细的描述 | 发送给CLIP-L模型的文本 | "a beautiful landscape with mountains" |
| text_g | text_g | 文本输入框 | 风格描述 | 给第二个理解专家的指令,通常写风格和情感 | 发送给CLIP-G模型的文本 | "cinematic, dramatic lighting, masterpiece" |
| clip | clip | CLIP模型连接 | 从SDXL CLIP加载器连接 | 连接SDXL专用的文字理解工具 | SDXL CLIP文本编码器模型 | 从 "Load CLIP" 节点连接SDXL模型 |
| token_normalization | token_normalization | none/mean/length/length+mean | length+mean | 决定如何处理长词的权重分配 | 词元权重标准化方法 | 选择 "length+mean" 获得最平衡的效果 |
| weight_interpretation | weight_interpretation | comfy/A1111/compel/comfy++/down_weight | comfy++ | 选择理解权重的方式 | 权重解释算法 | comfy++比较温和,适合大多数情况 |
| balance | balance | 0.0-1.0 | 0.5 | 调节两个理解专家的影响力比例,就像调节音响的左右声道平衡 | CLIP-L和CLIP-G模型的平衡系数 | 0.5是平衡,0.0偏向细节,1.0偏向风格 |
3.3 BNK_AddCLIPSDXLParams 节点(SDXL参数添加器)
这个节点是干嘛的?
这个节点就像一个"图片规格说明书",它告诉 SDXL 模型你想要的图片应该是什么尺寸,以及如何裁剪。就像你去照相馆告诉师傅要洗多大的照片,要不要裁剪一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| conditioning | conditioning | CONDITIONING连接 | 从编码器连接 | 接收已经理解好的提示词信息,就像接收翻译好的指令 | 输入的条件编码 | 从文字编码器节点连接过来 |
| width | width | 0-最大分辨率 | 1024 | 设置图片的宽度,就像设置画布的宽度 | 图像宽度像素值 | 1024表示1024像素宽 |
| height | height | 0-最大分辨率 | 1024 | 设置图片的高度,就像设置画布的高度 | 图像高度像素值 | 1024表示1024像素高 |
| crop_w | crop_w | 0-最大分辨率 | 0 | 设置从左边开始裁剪的位置,就像决定从哪里开始剪照片 | 裁剪区域左边界像素位置 | 0表示从最左边开始,100表示从左边100像素开始 |
| crop_h | crop_h | 0-最大分辨率 | 0 | 设置从上边开始裁剪的位置,就像决定从哪里开始剪照片 | 裁剪区域上边界像素位置 | 0表示从最上边开始,50表示从上边50像素开始 |
| target_width | target_width | 0-最大分辨率 | 1024 | 设置原始图片的目标宽度,就像告诉AI原图应该多宽 | 目标图像宽度 | 通常和width保持一致 |
| target_height | target_height | 0-最大分辨率 | 1024 | 设置原始图片的目标高度,就像告诉AI原图应该多高 | 目标图像高度 | 通常和height保持一致 |
3.4 BNK_AddCLIPSDXLRParams 节点(SDXL精修参数添加器)
这个节点是干嘛的?
这个节点是专门为 SDXL 的"精修模式"设计的参数设置器。就像你拍了照片后,还要告诉修图师这张照片的尺寸和美观程度,让精修效果更好。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| conditioning | conditioning | CONDITIONING连接 | 从编码器连接 | 接收已经理解好的提示词信息 | 输入的条件编码 | 从文字编码器节点连接过来 |
| width | width | 0-最大分辨率 | 1024 | 设置图片的宽度 | 图像宽度像素值 | 1024表示1024像素宽 |
| height | height | 0-最大分辨率 | 1024 | 设置图片的高度 | 图像高度像素值 | 1024表示1024像素高 |
| ascore | ascore | 0.0-1000.0 | 6.0 | 设置美观分数,就像告诉AI这张图片应该有多美 | 美学评分参数 | 6.0是标准美观度,数值越高要求越美 |
4. 使用技巧和建议
4.1 选择合适的权重理解方式
- comfy:ComfyUI 默认方式,比较温和
- A1111:效果比较强烈,权重影响明显
- compel:下权重效果好,适合需要减弱某些元素时使用
- comfy++:最平衡的选择,推荐新手使用
- down_weight:专门用于降低权重,适合去除不想要的元素
4.2 词元标准化的选择
- none:不做任何处理,保持原始权重
- mean:让所有词的平均权重为1,比较平衡
- length:长词的权重会分散到每个字符,更精确
- length+mean:最推荐的选择,既精确又平衡
4.3 SDXL 双文本框的使用技巧
- text_l(详细描述):写具体的物体、场景、动作
- text_g(风格描述):写艺术风格、光影效果、情感氛围
- balance 参数:0.5是平衡点,偏向0注重细节,偏向1注重风格
4.4 尺寸参数设置建议
- 标准尺寸:1024x1024(方形)、1152x896(横向)、896x1152(竖向)
- 裁剪参数:通常设为0,除非你需要特殊的构图效果
- 美观分数:6.0是标准值,可以根据需要调整到4-8之间
5. 常见问题解答
Q1: 为什么换了权重理解方式后效果差别很大?
A: 不同的理解方式就像不同的翻译风格:
- A1111 比较"直接",权重效果明显
- comfy 比较"温和",变化渐进
- comfy++ 最"平衡",适合大多数情况
Q2: token_normalization 应该选哪个?
A: 推荐选择 "length+mean":
- 它会让长词的权重合理分配
- 同时保持整体权重平衡
- 适合大多数使用场景
Q3: SDXL 的两个文本框应该怎么写?
A: 建议分工:
- text_l:写具体内容,如 "a cat sitting on a chair"
- text_g:写风格效果,如 "photorealistic, soft lighting, masterpiece"
Q4: balance 参数怎么调节?
A: 根据需要调整:
- 0.3-0.4:更注重细节和具体内容
- 0.5:平衡状态
- 0.6-0.7:更注重风格和氛围
Q5: 美观分数 ascore 设多少合适?
A: 建议范围:
- 4-5:自然风格
- 6:标准美观度
- 7-8:高美观度
- 超过8:可能过度美化
6. 实用工作流示例
基础工作流
- 加载 CLIP 模型
- 使用 BNK_CLIPTextEncodeAdvanced 节点
- 设置 token_normalization 为 "length+mean"
- 设置 weight_interpretation 为 "comfy++"
- 连接到采样器
SDXL 高级工作流
- 加载 SDXL CLIP 模型
- 使用 BNK_CLIPTextEncodeSDXLAdvanced 节点
- 分别设置两个文本框的内容
- 使用 BNK_AddCLIPSDXLParams 设置尺寸
- 连接到 SDXL 采样器
精修工作流
- 完成基础生成
- 使用 BNK_AddCLIPSDXLRParams 节点
- 设置合适的美观分数
- 连接到精修采样器
7. 权重理解方式详细对比
上权重效果对比
- A1111:效果最强烈,(cat:1.5) 会让猫的特征非常突出
- comfy:效果温和,渐进式增强
- comfy++:最平衡,既有效果又不过度
下权重效果对比
- compel:下权重效果最好,能有效减少不想要的元素
- down_weight:专门优化下权重,适合去除特定内容
- 其他方式:下权重效果相对较弱
8. 总结
这个插件为 ComfyUI 用户提供了更精确的文字理解控制,让 AI 能够更准确地理解你的创作意图。无论是简单的权重调节,还是复杂的 SDXL 双模型控制,都能找到适合的解决方案。
重要提醒:
- 新手建议从 comfy++ 和 length+mean 开始
- SDXL 用户要善用双文本框功能
- 不同的权重理解方式适合不同的创作需求
- 多尝试不同参数组合,找到最适合你的设置
希望这个教程能帮助你更好地使用 ComfyUI_ADV_CLIP_emb 插件,创作出更满意的作品!