ComfyUI-LevelPixel-Advanced 插件完整教程
1. 插件简介
ComfyUI-LevelPixel-Advanced 是一个专门为 ComfyUI 设计的高级节点包,这个插件有啥用,能给我们带来什么效果主要功能包括:
官方仓库地址: https://github.com/LevelPixel/ComfyUI-LevelPixel-Advanced
这个插件就像一个专业的AI助手工具箱,它能帮你:
- 让电脑读懂图片内容并生成文字描述(就像给图片配字幕)
- 自动给图片打标签,告诉你图片里有什么东西
- 去除图片背景,让人物或物品"飞"出来
- 使用最新的多模态AI模型,让AI既能看图又能聊天
- 自动管理显存,防止电脑卡死
这个插件的目的是收集处理LLM和VLM模型(GGUF格式)最必要和基础的节点。安装和维护基于LLaVA的LLM和VLM节点比较复杂,所以这个节点包现在要与主要的Level Pixel节点包分开安装。
2. 如何安装
安装前准备(重要!)
在使用这个插件之前,你需要准备以下软件(就像装修前要准备工具):
-
CUDA驱动程序 - 让显卡能正常工作的程序
- 下载地址:https://developer.nvidia.com/cuda-downloads
- 安装最新版本
-
Visual Studio 2022 Community - 编译程序的工具
- 下载地址:https://visualstudio.microsoft.com/downloads
- 安装时要选择以下组件:
- MSVC v143 - VS 2022 C++ x64/x86 build tools (最新版)
- MSVC v143 - VS 2022 C++ x64/x86 build tools (v14.38-17.8)
- C++ Cmake tools for Windows
- C++ Cmake tools for Linux and Mac
-
CMAKE - 编译工具
- 下载地址:https://cmake.org/download
- 安装最新版本
-
llama-mtmd-cli(如果要使用多模态功能)
- 下载地址:https://github.com/ggml-org/llama.cpp/releases/tag/b5317
- 选择适合你系统的版本,通常是
llama-b5317-bin-win--cu12.4-x64.zip - 解压到:
ComfyUI\custom_nodes\ComfyUI-LevelPixel-Advanced\nodes\vlm\llama-mtmd-cli
具体安装步骤
方法一:使用ComfyUI Manager(推荐)
- 安装 ComfyUI Manager
- 在ComfyUI Manager中搜索 "ComfyUI-LevelPixel-Advanced"
- 点击安装
方法二:手动安装
- 打开命令行,切换到ComfyUI的custom_nodes目录
- 运行:
git clone https://github.com/LevelPixel/ComfyUI-LevelPixel-Advanced.git - 重启ComfyUI
3. 节点详细解析
3.1 Multimodal Generator Advanced [LP] - 多模态生成器(高级版)
这个节点就像一个既能看图又能聊天的AI助手,它能同时理解图片和文字,然后生成相应的文字描述。
功能说明: 这是一个实验性节点,基于最新的多模态神经网络技术,支持 Qwen2.5-VL 格式的GGUF模型。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型选择 | ckpt_name | 下拉列表 | 根据需要选择 | 选择要使用的AI大脑模型 | 选择预训练的多模态模型文件 | 选择下载的Qwen2.5-VL模型文件 |
| 视觉模型 | clip_name | 下拉列表 | 对应的mmproj文件 | 选择用来理解图片的模型 | 选择对应的视觉编码器模型 | 选择与主模型配套的mmproj文件 |
| 提示词 | prompt | 文本框 | 自定义 | 告诉AI你想要什么样的回答 | 输入给模型的指令或问题 | "请描述这张图片的内容" |
| 最大输出长度 | max_tokens | 数字 | 512 | 控制AI回答的长度上限 | 生成文本的最大token数量 | 512表示大约生成400个汉字 |
| 温度 | temperature | 0.1-2.0 | 0.7 | 控制AI回答的创造性程度 | 采样温度,控制生成文本的随机性 | 0.1很保守,1.0正常,2.0很有创意 |
| 种子值 | seed | 整数 | 随机 | 控制结果的随机性 | 随机数种子,相同种子产生相同结果 | 设置固定数字可以重现相同结果 |
3.2 LLM Advanced [LP] - 大语言模型(高级版)
这个节点就像一个专业的文字助手,只处理文字对话,不看图片。
功能说明: 使用LLM模型生成文本,使用后自动从显存中卸载模型,节省显存空间。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型选择 | ckpt_name | 下拉列表 | 根据需要选择 | 选择要使用的文字AI大脑 | 选择预训练的语言模型文件 | 选择下载的GGUF格式模型 |
| 提示词 | prompt | 文本框 | 自定义 | 告诉AI你想聊什么 | 输入给模型的文本指令 | "写一首关于春天的诗" |
| 最大输出长度 | max_tokens | 数字 | 512 | 控制AI回答的字数上限 | 生成文本的最大token数量 | 512约等于400个汉字 |
| 温度 | temperature | 0.1-2.0 | 0.7 | 控制AI回答的创造性 | 采样温度参数 | 数值越高越有创意 |
| GPU层数 | n_gpu_layers | 整数 | -1 | 控制使用显卡的程度 | 在GPU上运行的层数 | -1表示全部使用显卡 |
| 线程数 | n_threads | 整数 | 4 | 控制使用CPU核心数 | 并行处理的线程数量 | 根据CPU核心数调整 |
| 批次大小 | n_batch | 整数 | 512 | 控制每次处理的数据量 | 批处理大小 | 显存大的话可以调高 |
3.3 LLaVa Advanced [LP] - 视觉语言模型(高级版)
这个节点就像一个既能看图又能聊天的智能助手,可以根据图片内容回答问题。
功能说明: 使用LLaVa模型同时处理图像和文本,生成基于图像内容的文本描述。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型选择 | ckpt_name | 下拉列表 | 根据需要选择 | 选择看图说话的AI大脑 | 选择预训练的多模态模型 | 选择LLaVa模型文件 |
| 视觉模型 | clip_name | 下拉列表 | 对应的clip文件 | 选择理解图片的眼睛 | 选择对应的视觉编码器 | 选择与模型配套的clip文件 |
| 图像输入 | image | 图片连接 | 必须连接 | 要让AI看的图片 | 输入的图像数据 | 连接Load Image节点 |
| 提示词 | prompt | 文本框 | 自定义 | 告诉AI你想问什么 | 输入给模型的问题或指令 | "这张图片里有什么?" |
| 最大输出长度 | max_tokens | 数字 | 512 | 控制AI回答的长度 | 生成文本的最大token数 | 512约等于400个汉字 |
| 温度 | temperature | 0.1-2.0 | 0.7 | 控制回答的创造性 | 采样温度参数 | 0.7是比较平衡的值 |
3.4 WD AutoTagger Advanced [LP] - 自动标签器(高级版)
这个节点就像一个专业的图片分析师,能自动识别图片内容并生成标签。
功能说明: 使用专业的图像识别模型自动为图片生成高质量的标签。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必须连接 | 要分析的图片 | 输入的图像数据 | 连接Load Image节点 |
| 模型选择 | model | 下拉列表 | wd-v1-4-moat-tagger-v2 | 选择识别图片的专家 | 选择预训练的标签识别模型 | 建议使用默认模型 |
| 置信度阈值 | threshold | 0.0-1.0 | 0.35 | 控制标签的准确性要求 | 标签输出的置信度阈值 | 0.35表示35%以上把握才输出 |
| 字符置信度 | character_threshold | 0.0-1.0 | 0.85 | 控制角色识别的准确性 | 角色标签的置信度阈值 | 0.85表示85%把握才输出角色 |
| 替换下划线 | replace_underscore | 布尔值 | true | 把标签中的下划线替换成空格 | 是否替换标签中的下划线 | true让标签更易读 |
| 移除角色标签 | remove_character_tags | 布尔值 | false | 是否移除角色相关的标签 | 是否过滤掉角色标签 | false保留所有标签 |
3.5 RAM Advanced [LP] - 图像识别模型(高级版)
这个节点就像一个超级眼睛,能识别图片中的各种物体和元素。
功能说明: 基于RAM++模型的图像识别节点,能输出图片中所有识别到的物体和元素标签。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必须连接 | 要识别的图片 | 输入的图像数据 | 连接Load Image节点 |
| 模型选择 | model | 下拉列表 | ram_plus_swin_large_14m | 选择识别的专家模型 | 选择预训练的RAM模型 | 建议使用RAM++模型 |
| 置信度阈值 | threshold | 0.0-1.0 | 0.68 | 控制识别的准确性要求 | 识别结果的置信度阈值 | 0.68表示68%把握才输出 |
| 输出语言 | output_language | 下拉列表 | english | 选择输出标签的语言 | 标签输出的语言设置 | english或chinese |
3.6 Image Remove Background (RMBG) [LP] - 背景移除(RMBG版)
这个节点就像一个专业的抠图师,能自动去除图片背景。
功能说明: 使用RMBG-2.0模型进行背景移除,这是最推荐使用的背景移除节点。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必须连接 | 要去掉背景的图片 | 输入的图像数据 | 连接Load Image节点 |
| 模型选择 | model | 下拉列表 | RMBG-2.0 | 选择去背景的专家 | 选择背景移除模型 | RMBG-2.0是最强的 |
| 返回遮罩 | return_mask | 布尔值 | false | 是否返回黑白遮罩图 | 是否输出mask图像 | true会额外输出遮罩 |
| 透明度处理 | alpha_matting | 布尔值 | false | 是否进行边缘优化 | 是否进行透明度抠图 | true会让边缘更自然 |
3.7 Image Remove Background (BiRefNet) [LP] - 背景移除(BiRefNet版)
这个节点就像一个快速的抠图助手,速度超快但质量也很高。
功能说明: 使用BiRefNet模型进行超快速背景移除,适合对速度要求高的场景。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必须连接 | 要去掉背景的图片 | 输入的图像数据 | 连接Load Image节点 |
| 模型选择 | model | 下拉列表 | BiRefNet-general | 选择快速抠图专家 | 选择BiRefNet模型变种 | general适合一般图片 |
| 返回遮罩 | return_mask | 布尔值 | false | 是否返回黑白遮罩图 | 是否输出mask图像 | true会额外输出遮罩 |
3.8 Image Remove Background (rembg) [LP] - 背景移除(rembg版)
这个节点就像一个多功能的抠图工具箱,有很多不同的抠图专家可以选择。
功能说明: 使用传统rembg库进行背景移除,支持多种专用模型,适合特定场景。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必须连接 | 要去掉背景的图片 | 输入的图像数据 | 连接Load Image节点 |
| 模型选择 | model | 下拉列表 | u2net | 选择抠图专家类型 | 选择不同的背景移除模型 | u2net适合一般图片 |
| 返回遮罩 | return_mask | 布尔值 | false | 是否返回黑白遮罩图 | 是否输出mask图像 | true会额外输出遮罩 |
| 透明度处理 | alpha_matting | 布尔值 | false | 是否进行边缘优化 | 是否进行透明度抠图 | true会让边缘更自然 |
4. 使用技巧和建议
4.1 显存管理技巧
- 这些节点都有自动显存管理功能,用完会自动释放显存
- 如果显存不够,优先选择较小的模型
- 可以降低批次大小来减少显存占用
4.2 模型选择建议
- 多模态任务:优先使用 Multimodal Generator Advanced
- 纯文本任务:使用 LLM Advanced
- 图片标签:WD AutoTagger 适合动漫风格,RAM 适合真实照片
- 背景移除:RMBG版本效果最好,BiRefNet版本速度最快
4.3 参数调优建议
- temperature: 0.1-0.3保守,0.7-1.0平衡,1.5-2.0创新
- threshold: 背景移除建议0.5,标签识别建议0.35
- max_tokens: 中文约为英文的1.3倍
5. 常见问题解答
Q1: 安装时出现编译错误怎么办?
A: 确保按顺序安装了CUDA、Visual Studio、CMAKE,并且CMAKE路径在系统环境变量的最前面。
Q2: 模型加载很慢怎么办?
A: 第一次使用会自动下载模型,请耐心等待。可以预先下载模型文件到对应目录。
Q3: 显存不足怎么办?
A: 可以降低n_gpu_layers参数,或者选择较小的模型文件。
Q4: 生成的文本质量不好怎么办?
A: 调整temperature参数,优化提示词,或者尝试不同的模型。
Q5: 背景移除效果不好怎么办?
A: 尝试不同的模型,调整threshold参数,或者使用alpha_matting功能。
6. 总结
ComfyUI-LevelPixel-Advanced 是一个功能强大的高级节点包,特别适合需要使用最新AI模型的用户。它就像给ComfyUI装上了一双慧眼和一个聪明的大脑,能够理解图片、生成文字、自动标注和去除背景。
虽然安装过程相对复杂,但一旦配置好,就能大大提升你的工作效率。记住,这些节点都有自动显存管理功能,不用担心显存溢出的问题。
建议新手从简单的背景移除和自动标签功能开始,逐步尝试更高级的多模态生成功能。随着对这些节点的熟悉,你会发现它们能为你的创作带来无限可能!