ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI MiniCPM-V-2_6-int4插件安装使用全攻略

ComfyUI MiniCPM-V-2_6-int4插件安装使用全攻略

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-06-30
  • 33 次阅读
编程界的小学生
编程界的小学生

ComfyUI MiniCPM-V-2_6-int4 插件完全教程

1. 插件简介

插件地址: https://github.com/IuvenisSapiens/ComfyUI_MiniCPM-V-2_6-int4

ComfyUI MiniCPM-V-2_6-int4 是一个专门为 ComfyUI 设计的智能图像和视频理解插件。简单来说,这个插件就像是给你的 ComfyUI 加了一个"超级聪明的眼睛和嘴巴",它能看懂图片、理解视频内容,然后用文字告诉你看到了什么,或者回答你关于图片和视频的问题。

这个插件能给我们带来什么效果?

  • 图片问答:上传一张图片,问它"这张图片里有什么?",它会详细描述给你听
  • 视频理解:上传一个视频,它能告诉你视频里发生了什么事情
  • 多图对话:同时上传多张图片,让它分析图片之间的关系或编故事
  • 纯文字聊天:就像和ChatGPT聊天一样,可以问各种问题
  • 智能描述:自动为你的图片或视频生成详细的文字描述

工作原理:
这个插件使用了MiniCPM-V模型,这是一个专门训练来理解图像和文字的人工智能。就像教会了电脑"看图说话"的本领。

2. 如何安装

方法一:通过 ComfyUI Manager 安装(推荐)

  1. 打开 ComfyUI
  2. 点击右下角的 "Manager" 按钮
  3. 选择 "Install Custom Nodes"
  4. 搜索 "minicpm"
  5. 找到 "ComfyUI_MiniCPM-V-2_6-int4" 并点击安装
  6. 重启 ComfyUI

方法二:手动安装

  1. 打开终端/命令提示符
  2. 进入 ComfyUI 的 custom_nodes 文件夹
  3. 运行命令:git clone https://github.com/IuvenisSapiens/ComfyUI_MiniCPM-V-2_6-int4.git
  4. 进入插件文件夹:cd ComfyUI_MiniCPM-V-2_6-int4
  5. 安装依赖:pip install -r requirements.txt
  6. 重启 ComfyUI

注意: 模型会在第一次使用时自动下载,需要确保网络连接正常。

3. 节点详细解析

3.1 MiniCPM_VQA 节点 - 经典版智能问答

这个节点就像是"万能翻译官",能看懂图片、理解视频,然后用文字回答你的问题。这是经典版本,支持最多3张图片的输入。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
texttext文本空白你想问的问题或想让它做的事情输入提示文本"描述这张图片"或"这个视频讲了什么故事?"
modelmodel选择项MiniCPM-V-2_6-int4选择使用哪个大脑模型,就像选择不同的专家模型选择默认选最新的2.6版本,更聪明
keep_model_loadedkeep_model_loaded布尔值False是否让模型一直待在内存里,像让专家一直在办公室等着保持模型加载状态True节省加载时间,False节省内存
top_ptop_p0.0-1.00.8控制回答的创意程度,数值越高越有创意核采样参数0.8平衡创意和准确性,0.9更有创意
top_ktop_k整数100限制每次选词的范围,像限制词汇量Top-K采样参数100是好的平衡点,50更保守,200更自由
temperaturetemperature0.0-1.00.7控制回答的随机性,就像调节"想象力"的大小温度参数0.1很严谨,0.7平衡,0.9很有想象力
repetition_penaltyrepetition_penalty浮点数1.05防止重复说话,数值越高越不爱重复重复惩罚系数1.0不惩罚,1.1轻微惩罚,1.2强烈惩罚
max_new_tokensmax_new_tokens整数2048最多能说多少个字,像限制作文字数最大生成长度512短回答,2048长回答,4096超长回答
video_max_num_framesvideo_max_num_frames整数64从视频里最多取多少帧来分析视频最大帧数32省内存,64平衡,128更详细但耗内存
video_max_slice_numsvideo_max_slice_nums整数2把视频切成几段来分析,防止内存不够视频切片数量1省内存,2平衡,4更细致
seedseed整数-1随机种子,相同种子产生相同结果随机种子-1随机,固定数字可重现结果
source_video_pathsource_video_path视频路径可选要分析的视频文件视频输入连接LoadVideo节点的输出
source_image_path_1stsource_image_path_1st图片可选第一张要分析的图片第一张图像输入连接图片加载节点
source_image_path_2ndsource_image_path_2nd图片可选第二张要分析的图片第二张图像输入可以不连接,用于多图对比
source_image_path_3rdsource_image_path_3rd图片可选第三张要分析的图片第三张图像输入可以不连接,用于多图分析

3.2 MiniCPM_VQA_Polished 节点 - 精简版智能问答

这个节点就像是"简化版翻译官",功能和经典版一样,但是输入方式更简洁,支持多张图片批量输入。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
texttext文本空白你想问的问题或想让它做的事情输入提示文本"分析这些图片的共同点"
modelmodel选择项MiniCPM-V-2_6-int4选择使用哪个大脑模型模型选择默认选最新的2.6版本
keep_model_loadedkeep_model_loaded布尔值False是否让模型一直待在内存里保持模型加载状态True连续使用时更快
top_ptop_p0.0-1.00.8控制回答的创意程度核采样参数0.8是好的平衡点
top_ktop_k整数100限制每次选词的范围Top-K采样参数100适合大多数情况
temperaturetemperature0.0-1.00.7控制回答的随机性温度参数0.7平衡准确性和创意
repetition_penaltyrepetition_penalty浮点数1.05防止重复说话重复惩罚系数1.05轻微防重复
max_new_tokensmax_new_tokens整数2048最多能说多少个字最大生成长度2048适合详细回答
video_max_num_framesvideo_max_num_frames整数64从视频里最多取多少帧来分析视频最大帧数64是好的平衡点
video_max_slice_numsvideo_max_slice_nums整数2把视频切成几段来分析视频切片数量2适合大多数视频
seedseed整数-1随机种子,控制结果的一致性随机种子-1每次都不同,固定数字结果一致
source_video_pathsource_video_path视频路径可选要分析的视频文件视频输入连接LoadVideo节点
source_image_pathsource_image_path图片组可选要分析的图片,可以是多张图像批次输入连接MultipleImagesInput节点

3.3 MultipleImagesInput 节点 - 多图片打包器

这个节点就像是"图片打包机",把多张单独的图片打包成一个包裹,方便一次性分析多张图片。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
inputcountinputcount2-10002要打包多少张图片,就像决定包裹大小输入图像数量3张图片就设为3,5张就设为5
image_1image_1图片必须连接第一张要打包的图片第一张图像输入连接Load Image节点
image_2image_2图片必须连接第二张要打包的图片第二张图像输入连接另一个Load Image节点

注意: 设置inputcount后需要点击"Update inputs"按钮来更新输入接口数量。

3.4 LoadVideo 节点 - 视频加载器

这个节点就像是"视频播放器的遥控器",帮你从ComfyUI的输入文件夹里选择要分析的视频。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
videovideo下拉选择选择视频文件从文件夹里选择要分析的视频视频文件选择选择你放在input文件夹里的mp4文件
uploadupload上传按钮点击上传上传新的视频文件到系统视频上传功能点击按钮选择电脑里的视频文件

支持的视频格式: mp4, mkv, mov, avi, flv, wmv, webm, m4v

3.5 PreviewVideo 节点 - 视频预览器

这个节点就像是"视频预览窗口",让你在ComfyUI界面里直接看到视频内容,确认是不是你想要分析的视频。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
videovideo视频路径来自LoadVideo要预览的视频文件路径视频路径输入连接LoadVideo节点的输出

功能特点:

  • 支持视频播放控制(播放、暂停、进度条)
  • 自动调整显示尺寸
  • 支持右键菜单(打开预览、保存预览)

3.6 DisplayText 节点 - 文字显示器

这个节点就像是"智能显示屏",把AI生成的文字内容漂亮地显示出来,方便你阅读和复制。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
texttext文本来自其他节点要显示的文字内容文本输入连接MiniCPM_VQA节点的输出

功能特点:

  • 自动调整显示区域大小
  • 支持多行文本显示
  • 文本框只读,防止意外修改
  • 支持文本选择和复制

4. 使用技巧和建议

4.1 新手入门建议

  • 从简单开始:先试试单张图片问答,比如"这张图片里有什么?"
  • 问题要具体:不要问"分析图片",要问"这张图片里的人在做什么?"
  • 合理设置参数:初学者建议使用默认参数

4.2 提问技巧

  • 描述类问题:
    • "详细描述这张图片"
    • "这个视频讲了什么故事?"
    • "图片中的人物表情如何?"
  • 分析类问题:
    • "这些图片有什么共同点?"
    • "比较这两张图片的差异"
    • "这个场景可能在哪里?"
  • 创意类问题:
    • "为这张图片编一个故事"
    • "如果你是图片中的人,你在想什么?"

4.3 参数调节建议

  • 追求准确性:temperature=0.3, top_p=0.7
  • 平衡模式:temperature=0.7, top_p=0.8(推荐)
  • 创意模式:temperature=0.9, top_p=0.9
  • 节省内存:video_max_num_frames=32, video_max_slice_nums=1

4.4 性能优化技巧

  • 连续使用时:设置keep_model_loaded=True
  • 内存不足时:减少video_max_num_frames和max_new_tokens
  • 提高速度:使用精简版节点(Polished)而不是经典版

5. 常见问题解答

Q1: 模型下载很慢或失败怎么办?

A:

  1. 检查网络连接是否稳定
  2. 尝试使用VPN或代理
  3. 手动下载模型到ComfyUI/models/prompt_generator/文件夹
  4. 确保有足够的硬盘空间(约需要4-8GB)

Q2: 运行时提示内存不足怎么办?

A:

  1. 设置keep_model_loaded=False
  2. 减少video_max_num_frames到32或16
  3. 减少max_new_tokens到1024
  4. 关闭其他占用内存的程序

Q3: 为什么AI的回答不准确?

A:

  1. 检查图片质量是否清晰
  2. 问题描述要具体明确
  3. 尝试调整temperature参数(降低到0.5)
  4. 确保使用的是最新版本的模型

Q4: 视频分析效果不好怎么办?

A:

  1. 确保视频清晰度足够
  2. 增加video_max_num_frames参数
  3. 尝试将长视频分段处理
  4. 检查视频格式是否支持

Q5: 如何处理多张图片?

A:

  1. 使用MultipleImagesInput节点打包图片
  2. 连接到MiniCPM_VQA_Polished节点
  3. 在问题中明确提到"这些图片"或"所有图片"

6. 工作流程示例

基础图片问答工作流程:

  1. Load Image → 加载图片
  2. MiniCPM_VQA → 设置问题和参数
  3. DisplayText → 显示AI回答

多图片分析工作流程:

  1. Load Image (多个) → 加载多张图片
  2. MultipleImagesInput → 打包图片
  3. MiniCPM_VQA_Polished → 分析多图
  4. DisplayText → 显示结果

视频分析工作流程:

  1. LoadVideo → 选择视频文件
  2. PreviewVideo → 预览确认(可选)
  3. MiniCPM_VQA → 分析视频内容
  4. DisplayText → 显示分析结果

纯文字聊天工作流程:

  1. MiniCPM_VQA → 只填写text参数,不连接图片或视频
  2. DisplayText → 显示AI回答

7. 高级应用技巧

7.1 批量图片描述

  • 使用MultipleImagesInput打包多张图片
  • 问题设为"分别描述每张图片的内容"
  • 设置较大的max_new_tokens值

7.2 视频故事生成

  • 上传有情节的视频
  • 问题设为"为这个视频编写一个详细的故事"
  • 调高temperature增加创意性

7.3 图片对比分析

  • 使用两张相关图片
  • 问题设为"比较这两张图片的异同点"
  • 使用较低的temperature确保准确性

7.4 教育应用

  • 上传教学图片或视频
  • 问题设为"解释图片中的科学原理"或"这个实验说明了什么?"
  • 适合用于科学教育和知识问答

8. 总结

ComfyUI MiniCPM-V-2_6-int4 插件为图像和视频理解提供了强大的AI能力,通过合理使用这6个节点,你可以:

  • 让AI看懂并描述任何图片内容
  • 分析视频中的情节和细节
  • 进行多图片的对比和关联分析
  • 实现智能的图文问答功能
  • 创建有趣的AI聊天体验

记住,掌握这个插件的关键是:

  1. 理解每个节点的作用 - 知道什么时候用哪个节点
  2. 学会提问的艺术 - 具体明确的问题得到更好的答案
  3. 合理调整参数 - 根据需求平衡准确性和创意性
  4. 多多实践 - 通过不断尝试来发现更多可能性
标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号