ComfyUI_ExtraModels 插件完整教程
1. 插件简介
ComfyUI_ExtraModels 是一个超级强大的插件,它的 GitHub 地址是:https://github.com/city96/ComfyUI_ExtraModels
这个插件就像一个万能转换器,能让你的 ComfyUI 支持更多种类的 AI 绘画模型。想象一下,如果说原本的 ComfyUI 只能用一种笔来画画,那么这个插件就给你提供了油画笔、水彩笔、蜡笔等各种不同的绘画工具。
目前支持的模型包括:DiT、PixArt、HunYuanDiT、MiaoBi 和一些自定义的 VAE 模型。每一种模型都有自己的特色,比如有的擅长画写实风格,有的擅长画动漫风格,有的专门处理中文提示词。
2. 如何安装
方法一:使用 Git 命令(推荐)
- 打开命令行工具
- 进入你的 ComfyUI 目录下的 custom_nodes 文件夹
- 运行下面的命令:
git clone https://github.com/city96/ComfyUI_ExtraModels custom_nodes/ComfyUI_ExtraModels
方法二:Windows 便携版安装
- 找到你的 ComfyUI 文件夹(有 run_nvidia_gpu.bat 文件的地方)
- 按住 Ctrl+Shift+右键,选择"在此处打开 PowerShell 窗口"
- 输入:
git clone https://github.com/city96/ComfyUI_ExtraModels .\ComfyUI\custom_nodes\ComfyUI_ExtraModels
- 安装依赖:
.\python_embeded\python.exe -s -m pip install -r .\ComfyUI\custom_nodes\ComfyUI_ExtraModels\requirements.txt
3. 节点详细解析
3.1 DiT 模型相关节点
3.1.1 DiT 加载器节点
这个节点就像一个专门读取 DiT 模型的读卡器。DiT 模型比较特殊,它不像其他模型那样用文字来描述图片,而是用类别标签(就像给图片贴标签一样)。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型文件 | model_path | 文件路径 | DiT-XL-2-512x512.pt | 选择你要用的 DiT 模型文件 | 指定 DiT 模型的文件路径 | 从下拉菜单选择已下载的 DiT 模型 |
| 精度类型 | dtype | fp16/fp32 | fp16 | 控制模型运算精度,fp16 更省显存 | 浮点数精度设置 | 显存不够选 fp16,显存充足选 fp32 |
3.1.2 DiT 类别标签节点
这个节点就像一个标签制作机,你告诉它你想要什么类型的图片,它就给你制作相应的标签。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 类别标签 | class_label | 0-999 | 根据需要 | 选择你想生成的图片类别 | ImageNet 类别标签编码 | 选择 285 生成埃及猫的图片 |
| 引导强度 | guidance_scale | 1.0-20.0 | 4.0 | 控制模型有多听话地按照标签生成 | 无分类器引导强度 | 数值越高图片越符合标签,但可能过于死板 |
3.1.3 DiT 空标签节点
这个节点就像一个空白标签,专门用来做负面提示(告诉模型你不想要什么)。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 批次大小 | batch_size | 1-10 | 1 | 一次处理多少张图片 | 批处理数量 | 想同时生成 4 张图就设置为 4 |
3.2 PixArt 模型相关节点
3.2.1 PixArt 检查点加载器节点
这个节点就像一个专门为 PixArt 模型定制的读卡器,PixArt 模型的特点是能理解很长的文字描述。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型文件 | ckpt_name | 文件路径 | PixArt-XL-2-1024-MS.pth | 选择 PixArt 模型文件 | PixArt 模型文件路径 | 选择已下载的 PixArt 模型 |
| 模型类型 | model_type | alpha/sigma | alpha | 选择 PixArt 的版本类型 | PixArt 模型版本 | alpha 版本用 SD1.5 VAE,sigma 版本用 SDXL VAE |
| 精度类型 | dtype | fp16/fp32 | fp16 | 控制运算精度 | 浮点数精度 | fp16 省显存但可能影响质量 |
3.2.2 PixArt T5 文本编码器节点
这个节点就像一个超级翻译机,能把你的文字描述翻译成 PixArt 模型能理解的语言。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本内容 | text | 字符串 | 详细描述 | 输入你想要的图片描述 | 文本提示词 | "一只可爱的小猫坐在花园里,阳光明媚" |
| 最大长度 | max_length | 120-300 | 120 | 文本描述的最大字符数 | 文本序列最大长度 | 长描述用 300,短描述用 120 |
3.2.3 PixArt DPM 采样器节点
这个节点就像一个专门为 PixArt 模型调配的画笔,能更好地控制绘画过程。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 采样步数 | steps | 10-50 | 20 | 画多少步才完成,步数越多越细致 | 去噪步数 | 快速预览用 10 步,精细作品用 30-50 步 |
| 引导强度 | cfg | 1.0-20.0 | 4.5 | 控制模型有多听话地按照文字生成 | 无分类器引导强度 | 数值越高越符合描述,但可能过于死板 |
| 采样器类型 | sampler_name | dpm-solver | dpm-solver | 选择不同的绘画算法 | 采样算法 | 保持默认的 dpm-solver 即可 |
3.3 HunYuan DiT 模型相关节点
3.3.1 HunYuan DiT 加载器节点
这个节点就像一个专门读取混元 DiT 模型的读卡器,混元模型是腾讯开发的,特别擅长理解中文。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型文件 | model_path | 文件路径 | HunYuanDiT.pt | 选择混元模型文件 | HunYuan DiT 模型路径 | 选择已下载的混元模型 |
| 精度类型 | dtype | fp16/fp32 | fp16 | 控制运算精度 | 浮点数精度 | fp16 省显存 |
3.3.2 HunYuan DiT 文本编码器节点
这个节点就像一个中英文双语翻译机,能同时处理中文和英文的描述。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 中文文本 | text_cn | 字符串 | 中文描述 | 输入中文的图片描述 | 中文提示词 | "一个美丽的古代宫殿,金碧辉煌" |
| 英文文本 | text_en | 字符串 | 英文描述 | 输入英文的图片描述 | 英文提示词 | "A beautiful ancient palace, golden and brilliant" |
3.3.3 HunYuan DiT 简单文本编码器节点
这个节点就像一个简化版的翻译机,只需要输入一种语言就可以了。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本内容 | text | 字符串 | 详细描述 | 输入图片描述(中英文都可以) | 混合语言提示词 | "一只cute cat坐在花园里" |
3.4 MiaoBi 模型相关节点
3.4.1 MiaoBi 检查点加载器节点
这个节点就像一个专门为妙笔模型定制的读卡器,妙笔是专门为中文优化的 AI 绘画模型。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| UNet 模型 | unet_name | 文件路径 | MiaoBi.safetensors | 选择妙笔的主模型文件 | UNet 模型路径 | 选择已下载的妙笔模型 |
| CLIP 模型 | clip_name | 文件路径 | MiaoBi_CLIP.safetensors | 选择妙笔的文本理解模型 | CLIP 模型路径 | 选择配套的 CLIP 模型 |
3.4.2 MiaoBi Diffusers 加载器节点
这个节点就像一个整合包读取器,能一次性读取整个妙笔模型包。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型路径 | model_path | 文件夹路径 | MiaoBi 文件夹 | 选择妙笔模型的完整文件夹 | Diffusers 格式模型路径 | 选择包含所有文件的妙笔文件夹 |
| 精度类型 | dtype | fp16/fp32 | fp16 | 控制运算精度 | 浮点数精度 | fp16 省显存 |
3.5 T5 文本编码器相关节点
3.5.1 T5 文本编码器节点
这个节点就像一个超级强大的文字理解机,能理解非常长和复杂的文字描述。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本内容 | text | 字符串 | 详细描述 | 输入你想要的图片描述 | 文本提示词 | 可以写很长的描述,比如一整段故事 |
| 设备类型 | device | cpu/cuda | cpu | 选择用CPU还是显卡来处理 | 计算设备 | 显存不够选 cpu,显存充足选 cuda |
| 数据类型 | dtype | fp16/fp32/bf16 | fp16 | 控制运算精度 | 浮点数精度 | fp16 省显存,bf16 更稳定 |
| 量化模式 | quantization | none/bnb4bit | none | 是否压缩模型来省显存 | 模型量化方式 | 显存不够选 bnb4bit |
3.5.2 T5 加载器节点
这个节点就像一个 T5 模型的专用读卡器,负责加载 T5 模型到内存中。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型名称 | model_name | 文件路径 | t5-v1_1-xxl | 选择 T5 模型文件 | T5 模型路径 | 选择已下载的 T5 模型 |
| 设备类型 | device | cpu/cuda | cpu | 选择计算设备 | 计算设备 | 显存紧张选 cpu |
| 数据类型 | dtype | fp16/fp32/bf16 | fp16 | 控制运算精度 | 浮点数精度 | 根据显存情况选择 |
3.6 VAE 相关节点
3.6.1 ExtraVAE 加载器节点
这个节点就像一个万能的图片编解码器读卡器,能加载各种特殊的 VAE 模型。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| VAE 名称 | vae_name | 文件路径 | 根据需要 | 选择要使用的 VAE 模型 | VAE 模型文件路径 | 选择适合当前主模型的 VAE |
| 数据类型 | dtype | fp16/fp32 | fp16 | 控制运算精度 | 浮点数精度 | fp16 省显存 |
3.6.2 一致性解码器节点
这个节点就像一个特殊的图片解码器,能让图片看起来更一致、更稳定。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 潜在图像 | samples | 潜在空间 | 从上游节点 | 输入需要解码的潜在图像 | 潜在空间表示 | 连接从采样器输出的潜在图像 |
| 分块解码 | tiled | true/false | true | 是否分块处理来省显存 | 分块解码开关 | 显存不够选 true |
3.7 空潜在图像生成节点
3.7.1 空 Sana 潜在图像节点
这个节点就像一个为 Sana 模型定制的画布制作机,创建特定尺寸的空白画布。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 宽度 | width | 像素值 | 1024 | 设置图片宽度 | 图像宽度像素 | 常用 1024 或 512 |
| 高度 | height | 像素值 | 1024 | 设置图片高度 | 图像高度像素 | 与宽度保持一致比例 |
| 批次大小 | batch_size | 1-10 | 1 | 一次生成多少张图 | 批处理数量 | 想要多张图设置更大值 |
3.7.2 空 DCAE 潜在图像节点
这个节点就像一个为 DCAE 模型定制的画布制作机,创建特定压缩格式的空白画布。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 宽度 | width | 像素值 | 1024 | 设置图片宽度 | 图像宽度像素 | 根据模型要求设置 |
| 高度 | height | 像素值 | 1024 | 设置图片高度 | 图像高度像素 | 保持合适比例 |
| 批次大小 | batch_size | 1-10 | 1 | 一次生成多少张图 | 批处理数量 | 根据显存情况调整 |
3.8 Gemma 加载器节点
3.8.1 Gemma 加载器节点
这个节点就像一个专门为 Gemma 文本模型定制的读卡器,Gemma 是 Google 开发的轻量级文本理解模型。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型名称 | model_name | 模型标识 | gemma-2-2b-it | 选择 Gemma 模型版本 | Gemma 模型标识符 | 2b 版本比较轻量,适合普通用户 |
| 设备类型 | device | cpu/cuda | cpu | 选择计算设备 | 计算设备 | 显存紧张选 cpu |
| 量化模式 | quantization | none/4bit | 4bit | 是否压缩模型 | 模型量化方式 | 4bit 能大幅降低显存占用 |
4. 使用技巧和建议
4.1 显存优化技巧
-
优先使用 fp16 精度:在大多数情况下,fp16 既能节省显存又能保持良好的图片质量。
-
合理选择设备:如果你有多张显卡,可以把 T5 模型放在第二张卡上(选择 cuda:1)。
-
使用量化模式:显存不够时,选择 bnb4bit 或 4bit 量化可以大幅减少显存占用。
-
分块处理:对于大尺寸图片,开启分块解码(tiled)功能。
4.2 模型搭配建议
-
PixArt Alpha + SD1.5 VAE:适合生成高质量的艺术作品。
-
PixArt Sigma + SDXL VAE:适合生成更大尺寸的图片。
-
HunYuan DiT + SDXL VAE:适合处理中文提示词。
-
MiaoBi + SD1.5 VAE:专门为中文优化,兼容现有插件。
4.3 参数调优建议
-
采样步数:
- 快速预览:10-15 步
- 正常质量:20-30 步
- 高质量:40-50 步
-
引导强度(CFG):
- 创意自由:1.5-3.0
- 平衡效果:4.0-7.0
- 严格遵循:8.0-15.0
-
批次大小:
- 单卡 8GB:建议 1-2
- 单卡 12GB:建议 2-4
- 单卡 24GB:建议 4-8
5. 常见问题解答
5.1 模型加载问题
问题:模型加载失败或找不到文件
解决:
- 检查模型文件是否放在正确的文件夹中
- 确认文件名是否正确
- 检查文件是否完整下载
5.2 显存不足问题
问题:生成图片时显存不足
解决:
- 降低批次大小到 1
- 使用 fp16 精度
- 开启量化模式(bnb4bit)
- 将 T5 模型放在 CPU 上
5.3 图片质量问题
问题:生成的图片质量不佳
解决:
- 检查是否安装了 xformers
- 调整采样步数(增加到 30-50 步)
- 调整引导强度(CFG)
- 确保使用了正确的 VAE 模型
5.4 中文提示词问题
问题:中文提示词效果不好
解决:
- 使用 HunYuan DiT 或 MiaoBi 模型
- 检查文本编码器是否正确加载
- 尝试中英文混合描述
6. 高级使用技巧
6.1 多模型组合使用
你可以在同一个工作流中使用多个模型:
- 用 PixArt 生成基础图片
- 用 MiaoBi 进行中文风格调整
- 用特殊 VAE 进行最终优化
6.2 自定义预设配置
为常用的模型组合创建预设:
- 保存常用的参数组合
- 创建模板工作流
- 使用 ComfyUI Manager 管理预设
6.3 性能监控
关注以下指标:
- 显存使用量
- 生成时间
- 图片质量评分
这个插件功能非常强大,建议从单个模型开始熟悉,然后逐步尝试更复杂的组合。记住,每个模型都有自己的特点,多实验多尝试才能找到最适合你需求的配置!