ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI LevelPixel插件高级教程 从入门到精通

ComfyUI LevelPixel插件高级教程 从入门到精通

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-03
  • 9 次阅读
编程界的小学生
编程界的小学生

ComfyUI-LevelPixel-Advanced 插件完整教程

1. 插件简介

ComfyUI-LevelPixel-Advanced 是一个专门为 ComfyUI 设计的高级节点包,这个插件有啥用,能给我们带来什么效果主要功能包括:

官方仓库地址: https://github.com/LevelPixel/ComfyUI-LevelPixel-Advanced

这个插件就像一个专业的AI助手工具箱,它能帮你:

  • 让电脑读懂图片内容并生成文字描述(就像给图片配字幕)
  • 自动给图片打标签,告诉你图片里有什么东西
  • 去除图片背景,让人物或物品"飞"出来
  • 使用最新的多模态AI模型,让AI既能看图又能聊天
  • 自动管理显存,防止电脑卡死

这个插件的目的是收集处理LLM和VLM模型(GGUF格式)最必要和基础的节点。安装和维护基于LLaVA的LLM和VLM节点比较复杂,所以这个节点包现在要与主要的Level Pixel节点包分开安装。

2. 如何安装

安装前准备(重要!)

在使用这个插件之前,你需要准备以下软件(就像装修前要准备工具):

  1. CUDA驱动程序 - 让显卡能正常工作的程序

    • 下载地址:https://developer.nvidia.com/cuda-downloads
    • 安装最新版本
  2. Visual Studio 2022 Community - 编译程序的工具

    • 下载地址:https://visualstudio.microsoft.com/downloads
    • 安装时要选择以下组件:
      • MSVC v143 - VS 2022 C++ x64/x86 build tools (最新版)
      • MSVC v143 - VS 2022 C++ x64/x86 build tools (v14.38-17.8)
      • C++ Cmake tools for Windows
      • C++ Cmake tools for Linux and Mac
  3. CMAKE - 编译工具

    • 下载地址:https://cmake.org/download
    • 安装最新版本
  4. llama-mtmd-cli(如果要使用多模态功能)

    • 下载地址:https://github.com/ggml-org/llama.cpp/releases/tag/b5317
    • 选择适合你系统的版本,通常是 llama-b5317-bin-win--cu12.4-x64.zip
    • 解压到:ComfyUI\custom_nodes\ComfyUI-LevelPixel-Advanced\nodes\vlm\llama-mtmd-cli

具体安装步骤

方法一:使用ComfyUI Manager(推荐)

  1. 安装 ComfyUI Manager
  2. 在ComfyUI Manager中搜索 "ComfyUI-LevelPixel-Advanced"
  3. 点击安装

方法二:手动安装

  1. 打开命令行,切换到ComfyUI的custom_nodes目录
  2. 运行:git clone https://github.com/LevelPixel/ComfyUI-LevelPixel-Advanced.git
  3. 重启ComfyUI

3. 节点详细解析

3.1 Multimodal Generator Advanced [LP] - 多模态生成器(高级版)

这个节点就像一个既能看图又能聊天的AI助手,它能同时理解图片和文字,然后生成相应的文字描述。

功能说明: 这是一个实验性节点,基于最新的多模态神经网络技术,支持 Qwen2.5-VL 格式的GGUF模型。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
模型选择ckpt_name下拉列表根据需要选择选择要使用的AI大脑模型选择预训练的多模态模型文件选择下载的Qwen2.5-VL模型文件
视觉模型clip_name下拉列表对应的mmproj文件选择用来理解图片的模型选择对应的视觉编码器模型选择与主模型配套的mmproj文件
提示词prompt文本框自定义告诉AI你想要什么样的回答输入给模型的指令或问题"请描述这张图片的内容"
最大输出长度max_tokens数字512控制AI回答的长度上限生成文本的最大token数量512表示大约生成400个汉字
温度temperature0.1-2.00.7控制AI回答的创造性程度采样温度,控制生成文本的随机性0.1很保守,1.0正常,2.0很有创意
种子值seed整数随机控制结果的随机性随机数种子,相同种子产生相同结果设置固定数字可以重现相同结果

3.2 LLM Advanced [LP] - 大语言模型(高级版)

这个节点就像一个专业的文字助手,只处理文字对话,不看图片。

功能说明: 使用LLM模型生成文本,使用后自动从显存中卸载模型,节省显存空间。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
模型选择ckpt_name下拉列表根据需要选择选择要使用的文字AI大脑选择预训练的语言模型文件选择下载的GGUF格式模型
提示词prompt文本框自定义告诉AI你想聊什么输入给模型的文本指令"写一首关于春天的诗"
最大输出长度max_tokens数字512控制AI回答的字数上限生成文本的最大token数量512约等于400个汉字
温度temperature0.1-2.00.7控制AI回答的创造性采样温度参数数值越高越有创意
GPU层数n_gpu_layers整数-1控制使用显卡的程度在GPU上运行的层数-1表示全部使用显卡
线程数n_threads整数4控制使用CPU核心数并行处理的线程数量根据CPU核心数调整
批次大小n_batch整数512控制每次处理的数据量批处理大小显存大的话可以调高

3.3 LLaVa Advanced [LP] - 视觉语言模型(高级版)

这个节点就像一个既能看图又能聊天的智能助手,可以根据图片内容回答问题。

功能说明: 使用LLaVa模型同时处理图像和文本,生成基于图像内容的文本描述。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
模型选择ckpt_name下拉列表根据需要选择选择看图说话的AI大脑选择预训练的多模态模型选择LLaVa模型文件
视觉模型clip_name下拉列表对应的clip文件选择理解图片的眼睛选择对应的视觉编码器选择与模型配套的clip文件
图像输入image图片连接必须连接要让AI看的图片输入的图像数据连接Load Image节点
提示词prompt文本框自定义告诉AI你想问什么输入给模型的问题或指令"这张图片里有什么?"
最大输出长度max_tokens数字512控制AI回答的长度生成文本的最大token数512约等于400个汉字
温度temperature0.1-2.00.7控制回答的创造性采样温度参数0.7是比较平衡的值

3.4 WD AutoTagger Advanced [LP] - 自动标签器(高级版)

这个节点就像一个专业的图片分析师,能自动识别图片内容并生成标签。

功能说明: 使用专业的图像识别模型自动为图片生成高质量的标签。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
图像输入image图片连接必须连接要分析的图片输入的图像数据连接Load Image节点
模型选择model下拉列表wd-v1-4-moat-tagger-v2选择识别图片的专家选择预训练的标签识别模型建议使用默认模型
置信度阈值threshold0.0-1.00.35控制标签的准确性要求标签输出的置信度阈值0.35表示35%以上把握才输出
字符置信度character_threshold0.0-1.00.85控制角色识别的准确性角色标签的置信度阈值0.85表示85%把握才输出角色
替换下划线replace_underscore布尔值true把标签中的下划线替换成空格是否替换标签中的下划线true让标签更易读
移除角色标签remove_character_tags布尔值false是否移除角色相关的标签是否过滤掉角色标签false保留所有标签

3.5 RAM Advanced [LP] - 图像识别模型(高级版)

这个节点就像一个超级眼睛,能识别图片中的各种物体和元素。

功能说明: 基于RAM++模型的图像识别节点,能输出图片中所有识别到的物体和元素标签。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
图像输入image图片连接必须连接要识别的图片输入的图像数据连接Load Image节点
模型选择model下拉列表ram_plus_swin_large_14m选择识别的专家模型选择预训练的RAM模型建议使用RAM++模型
置信度阈值threshold0.0-1.00.68控制识别的准确性要求识别结果的置信度阈值0.68表示68%把握才输出
输出语言output_language下拉列表english选择输出标签的语言标签输出的语言设置english或chinese

3.6 Image Remove Background (RMBG) [LP] - 背景移除(RMBG版)

这个节点就像一个专业的抠图师,能自动去除图片背景。

功能说明: 使用RMBG-2.0模型进行背景移除,这是最推荐使用的背景移除节点。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
图像输入image图片连接必须连接要去掉背景的图片输入的图像数据连接Load Image节点
模型选择model下拉列表RMBG-2.0选择去背景的专家选择背景移除模型RMBG-2.0是最强的
返回遮罩return_mask布尔值false是否返回黑白遮罩图是否输出mask图像true会额外输出遮罩
透明度处理alpha_matting布尔值false是否进行边缘优化是否进行透明度抠图true会让边缘更自然

3.7 Image Remove Background (BiRefNet) [LP] - 背景移除(BiRefNet版)

这个节点就像一个快速的抠图助手,速度超快但质量也很高。

功能说明: 使用BiRefNet模型进行超快速背景移除,适合对速度要求高的场景。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
图像输入image图片连接必须连接要去掉背景的图片输入的图像数据连接Load Image节点
模型选择model下拉列表BiRefNet-general选择快速抠图专家选择BiRefNet模型变种general适合一般图片
返回遮罩return_mask布尔值false是否返回黑白遮罩图是否输出mask图像true会额外输出遮罩

3.8 Image Remove Background (rembg) [LP] - 背景移除(rembg版)

这个节点就像一个多功能的抠图工具箱,有很多不同的抠图专家可以选择。

功能说明: 使用传统rembg库进行背景移除,支持多种专用模型,适合特定场景。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
图像输入image图片连接必须连接要去掉背景的图片输入的图像数据连接Load Image节点
模型选择model下拉列表u2net选择抠图专家类型选择不同的背景移除模型u2net适合一般图片
返回遮罩return_mask布尔值false是否返回黑白遮罩图是否输出mask图像true会额外输出遮罩
透明度处理alpha_matting布尔值false是否进行边缘优化是否进行透明度抠图true会让边缘更自然

4. 使用技巧和建议

4.1 显存管理技巧

  • 这些节点都有自动显存管理功能,用完会自动释放显存
  • 如果显存不够,优先选择较小的模型
  • 可以降低批次大小来减少显存占用

4.2 模型选择建议

  • 多模态任务:优先使用 Multimodal Generator Advanced
  • 纯文本任务:使用 LLM Advanced
  • 图片标签:WD AutoTagger 适合动漫风格,RAM 适合真实照片
  • 背景移除:RMBG版本效果最好,BiRefNet版本速度最快

4.3 参数调优建议

  • temperature: 0.1-0.3保守,0.7-1.0平衡,1.5-2.0创新
  • threshold: 背景移除建议0.5,标签识别建议0.35
  • max_tokens: 中文约为英文的1.3倍

5. 常见问题解答

Q1: 安装时出现编译错误怎么办?

A: 确保按顺序安装了CUDA、Visual Studio、CMAKE,并且CMAKE路径在系统环境变量的最前面。

Q2: 模型加载很慢怎么办?

A: 第一次使用会自动下载模型,请耐心等待。可以预先下载模型文件到对应目录。

Q3: 显存不足怎么办?

A: 可以降低n_gpu_layers参数,或者选择较小的模型文件。

Q4: 生成的文本质量不好怎么办?

A: 调整temperature参数,优化提示词,或者尝试不同的模型。

Q5: 背景移除效果不好怎么办?

A: 尝试不同的模型,调整threshold参数,或者使用alpha_matting功能。

6. 总结

ComfyUI-LevelPixel-Advanced 是一个功能强大的高级节点包,特别适合需要使用最新AI模型的用户。它就像给ComfyUI装上了一双慧眼和一个聪明的大脑,能够理解图片、生成文字、自动标注和去除背景。

虽然安装过程相对复杂,但一旦配置好,就能大大提升你的工作效率。记住,这些节点都有自动显存管理功能,不用担心显存溢出的问题。

建议新手从简单的背景移除和自动标签功能开始,逐步尝试更高级的多模态生成功能。随着对这些节点的熟悉,你会发现它们能为你的创作带来无限可能!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号