ComfyUI MiniCPM-V-2_6-int4 插件完全教程
1. 插件简介
插件地址: https://github.com/IuvenisSapiens/ComfyUI_MiniCPM-V-2_6-int4
ComfyUI MiniCPM-V-2_6-int4 是一个专门为 ComfyUI 设计的智能图像和视频理解插件。简单来说,这个插件就像是给你的 ComfyUI 加了一个"超级聪明的眼睛和嘴巴",它能看懂图片、理解视频内容,然后用文字告诉你看到了什么,或者回答你关于图片和视频的问题。
这个插件能给我们带来什么效果?
- 图片问答:上传一张图片,问它"这张图片里有什么?",它会详细描述给你听
- 视频理解:上传一个视频,它能告诉你视频里发生了什么事情
- 多图对话:同时上传多张图片,让它分析图片之间的关系或编故事
- 纯文字聊天:就像和ChatGPT聊天一样,可以问各种问题
- 智能描述:自动为你的图片或视频生成详细的文字描述
工作原理:
这个插件使用了MiniCPM-V模型,这是一个专门训练来理解图像和文字的人工智能。就像教会了电脑"看图说话"的本领。
2. 如何安装
方法一:通过 ComfyUI Manager 安装(推荐)
- 打开 ComfyUI
- 点击右下角的 "Manager" 按钮
- 选择 "Install Custom Nodes"
- 搜索 "minicpm"
- 找到 "ComfyUI_MiniCPM-V-2_6-int4" 并点击安装
- 重启 ComfyUI
方法二:手动安装
- 打开终端/命令提示符
- 进入 ComfyUI 的
custom_nodes文件夹 - 运行命令:
git clone https://github.com/IuvenisSapiens/ComfyUI_MiniCPM-V-2_6-int4.git - 进入插件文件夹:
cd ComfyUI_MiniCPM-V-2_6-int4 - 安装依赖:
pip install -r requirements.txt - 重启 ComfyUI
注意: 模型会在第一次使用时自动下载,需要确保网络连接正常。
3. 节点详细解析
3.1 MiniCPM_VQA 节点 - 经典版智能问答
这个节点就像是"万能翻译官",能看懂图片、理解视频,然后用文字回答你的问题。这是经典版本,支持最多3张图片的输入。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 文本 | 空白 | 你想问的问题或想让它做的事情 | 输入提示文本 | "描述这张图片"或"这个视频讲了什么故事?" |
| model | model | 选择项 | MiniCPM-V-2_6-int4 | 选择使用哪个大脑模型,就像选择不同的专家 | 模型选择 | 默认选最新的2.6版本,更聪明 |
| keep_model_loaded | keep_model_loaded | 布尔值 | False | 是否让模型一直待在内存里,像让专家一直在办公室等着 | 保持模型加载状态 | True节省加载时间,False节省内存 |
| top_p | top_p | 0.0-1.0 | 0.8 | 控制回答的创意程度,数值越高越有创意 | 核采样参数 | 0.8平衡创意和准确性,0.9更有创意 |
| top_k | top_k | 整数 | 100 | 限制每次选词的范围,像限制词汇量 | Top-K采样参数 | 100是好的平衡点,50更保守,200更自由 |
| temperature | temperature | 0.0-1.0 | 0.7 | 控制回答的随机性,就像调节"想象力"的大小 | 温度参数 | 0.1很严谨,0.7平衡,0.9很有想象力 |
| repetition_penalty | repetition_penalty | 浮点数 | 1.05 | 防止重复说话,数值越高越不爱重复 | 重复惩罚系数 | 1.0不惩罚,1.1轻微惩罚,1.2强烈惩罚 |
| max_new_tokens | max_new_tokens | 整数 | 2048 | 最多能说多少个字,像限制作文字数 | 最大生成长度 | 512短回答,2048长回答,4096超长回答 |
| video_max_num_frames | video_max_num_frames | 整数 | 64 | 从视频里最多取多少帧来分析 | 视频最大帧数 | 32省内存,64平衡,128更详细但耗内存 |
| video_max_slice_nums | video_max_slice_nums | 整数 | 2 | 把视频切成几段来分析,防止内存不够 | 视频切片数量 | 1省内存,2平衡,4更细致 |
| seed | seed | 整数 | -1 | 随机种子,相同种子产生相同结果 | 随机种子 | -1随机,固定数字可重现结果 |
| source_video_path | source_video_path | 视频路径 | 可选 | 要分析的视频文件 | 视频输入 | 连接LoadVideo节点的输出 |
| source_image_path_1st | source_image_path_1st | 图片 | 可选 | 第一张要分析的图片 | 第一张图像输入 | 连接图片加载节点 |
| source_image_path_2nd | source_image_path_2nd | 图片 | 可选 | 第二张要分析的图片 | 第二张图像输入 | 可以不连接,用于多图对比 |
| source_image_path_3rd | source_image_path_3rd | 图片 | 可选 | 第三张要分析的图片 | 第三张图像输入 | 可以不连接,用于多图分析 |
3.2 MiniCPM_VQA_Polished 节点 - 精简版智能问答
这个节点就像是"简化版翻译官",功能和经典版一样,但是输入方式更简洁,支持多张图片批量输入。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 文本 | 空白 | 你想问的问题或想让它做的事情 | 输入提示文本 | "分析这些图片的共同点" |
| model | model | 选择项 | MiniCPM-V-2_6-int4 | 选择使用哪个大脑模型 | 模型选择 | 默认选最新的2.6版本 |
| keep_model_loaded | keep_model_loaded | 布尔值 | False | 是否让模型一直待在内存里 | 保持模型加载状态 | True连续使用时更快 |
| top_p | top_p | 0.0-1.0 | 0.8 | 控制回答的创意程度 | 核采样参数 | 0.8是好的平衡点 |
| top_k | top_k | 整数 | 100 | 限制每次选词的范围 | Top-K采样参数 | 100适合大多数情况 |
| temperature | temperature | 0.0-1.0 | 0.7 | 控制回答的随机性 | 温度参数 | 0.7平衡准确性和创意 |
| repetition_penalty | repetition_penalty | 浮点数 | 1.05 | 防止重复说话 | 重复惩罚系数 | 1.05轻微防重复 |
| max_new_tokens | max_new_tokens | 整数 | 2048 | 最多能说多少个字 | 最大生成长度 | 2048适合详细回答 |
| video_max_num_frames | video_max_num_frames | 整数 | 64 | 从视频里最多取多少帧来分析 | 视频最大帧数 | 64是好的平衡点 |
| video_max_slice_nums | video_max_slice_nums | 整数 | 2 | 把视频切成几段来分析 | 视频切片数量 | 2适合大多数视频 |
| seed | seed | 整数 | -1 | 随机种子,控制结果的一致性 | 随机种子 | -1每次都不同,固定数字结果一致 |
| source_video_path | source_video_path | 视频路径 | 可选 | 要分析的视频文件 | 视频输入 | 连接LoadVideo节点 |
| source_image_path | source_image_path | 图片组 | 可选 | 要分析的图片,可以是多张 | 图像批次输入 | 连接MultipleImagesInput节点 |
3.3 MultipleImagesInput 节点 - 多图片打包器
这个节点就像是"图片打包机",把多张单独的图片打包成一个包裹,方便一次性分析多张图片。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| inputcount | inputcount | 2-1000 | 2 | 要打包多少张图片,就像决定包裹大小 | 输入图像数量 | 3张图片就设为3,5张就设为5 |
| image_1 | image_1 | 图片 | 必须连接 | 第一张要打包的图片 | 第一张图像输入 | 连接Load Image节点 |
| image_2 | image_2 | 图片 | 必须连接 | 第二张要打包的图片 | 第二张图像输入 | 连接另一个Load Image节点 |
注意: 设置inputcount后需要点击"Update inputs"按钮来更新输入接口数量。
3.4 LoadVideo 节点 - 视频加载器
这个节点就像是"视频播放器的遥控器",帮你从ComfyUI的输入文件夹里选择要分析的视频。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| video | video | 下拉选择 | 选择视频文件 | 从文件夹里选择要分析的视频 | 视频文件选择 | 选择你放在input文件夹里的mp4文件 |
| upload | upload | 上传按钮 | 点击上传 | 上传新的视频文件到系统 | 视频上传功能 | 点击按钮选择电脑里的视频文件 |
支持的视频格式: mp4, mkv, mov, avi, flv, wmv, webm, m4v
3.5 PreviewVideo 节点 - 视频预览器
这个节点就像是"视频预览窗口",让你在ComfyUI界面里直接看到视频内容,确认是不是你想要分析的视频。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| video | video | 视频路径 | 来自LoadVideo | 要预览的视频文件路径 | 视频路径输入 | 连接LoadVideo节点的输出 |
功能特点:
- 支持视频播放控制(播放、暂停、进度条)
- 自动调整显示尺寸
- 支持右键菜单(打开预览、保存预览)
3.6 DisplayText 节点 - 文字显示器
这个节点就像是"智能显示屏",把AI生成的文字内容漂亮地显示出来,方便你阅读和复制。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 文本 | 来自其他节点 | 要显示的文字内容 | 文本输入 | 连接MiniCPM_VQA节点的输出 |
功能特点:
- 自动调整显示区域大小
- 支持多行文本显示
- 文本框只读,防止意外修改
- 支持文本选择和复制
4. 使用技巧和建议
4.1 新手入门建议
- 从简单开始:先试试单张图片问答,比如"这张图片里有什么?"
- 问题要具体:不要问"分析图片",要问"这张图片里的人在做什么?"
- 合理设置参数:初学者建议使用默认参数
4.2 提问技巧
- 描述类问题:
- "详细描述这张图片"
- "这个视频讲了什么故事?"
- "图片中的人物表情如何?"
- 分析类问题:
- "这些图片有什么共同点?"
- "比较这两张图片的差异"
- "这个场景可能在哪里?"
- 创意类问题:
- "为这张图片编一个故事"
- "如果你是图片中的人,你在想什么?"
4.3 参数调节建议
- 追求准确性:temperature=0.3, top_p=0.7
- 平衡模式:temperature=0.7, top_p=0.8(推荐)
- 创意模式:temperature=0.9, top_p=0.9
- 节省内存:video_max_num_frames=32, video_max_slice_nums=1
4.4 性能优化技巧
- 连续使用时:设置keep_model_loaded=True
- 内存不足时:减少video_max_num_frames和max_new_tokens
- 提高速度:使用精简版节点(Polished)而不是经典版
5. 常见问题解答
Q1: 模型下载很慢或失败怎么办?
A:
- 检查网络连接是否稳定
- 尝试使用VPN或代理
- 手动下载模型到
ComfyUI/models/prompt_generator/文件夹 - 确保有足够的硬盘空间(约需要4-8GB)
Q2: 运行时提示内存不足怎么办?
A:
- 设置keep_model_loaded=False
- 减少video_max_num_frames到32或16
- 减少max_new_tokens到1024
- 关闭其他占用内存的程序
Q3: 为什么AI的回答不准确?
A:
- 检查图片质量是否清晰
- 问题描述要具体明确
- 尝试调整temperature参数(降低到0.5)
- 确保使用的是最新版本的模型
Q4: 视频分析效果不好怎么办?
A:
- 确保视频清晰度足够
- 增加video_max_num_frames参数
- 尝试将长视频分段处理
- 检查视频格式是否支持
Q5: 如何处理多张图片?
A:
- 使用MultipleImagesInput节点打包图片
- 连接到MiniCPM_VQA_Polished节点
- 在问题中明确提到"这些图片"或"所有图片"
6. 工作流程示例
基础图片问答工作流程:
- Load Image → 加载图片
- MiniCPM_VQA → 设置问题和参数
- DisplayText → 显示AI回答
多图片分析工作流程:
- Load Image (多个) → 加载多张图片
- MultipleImagesInput → 打包图片
- MiniCPM_VQA_Polished → 分析多图
- DisplayText → 显示结果
视频分析工作流程:
- LoadVideo → 选择视频文件
- PreviewVideo → 预览确认(可选)
- MiniCPM_VQA → 分析视频内容
- DisplayText → 显示分析结果
纯文字聊天工作流程:
- MiniCPM_VQA → 只填写text参数,不连接图片或视频
- DisplayText → 显示AI回答
7. 高级应用技巧
7.1 批量图片描述
- 使用MultipleImagesInput打包多张图片
- 问题设为"分别描述每张图片的内容"
- 设置较大的max_new_tokens值
7.2 视频故事生成
- 上传有情节的视频
- 问题设为"为这个视频编写一个详细的故事"
- 调高temperature增加创意性
7.3 图片对比分析
- 使用两张相关图片
- 问题设为"比较这两张图片的异同点"
- 使用较低的temperature确保准确性
7.4 教育应用
- 上传教学图片或视频
- 问题设为"解释图片中的科学原理"或"这个实验说明了什么?"
- 适合用于科学教育和知识问答
8. 总结
ComfyUI MiniCPM-V-2_6-int4 插件为图像和视频理解提供了强大的AI能力,通过合理使用这6个节点,你可以:
- 让AI看懂并描述任何图片内容
- 分析视频中的情节和细节
- 进行多图片的对比和关联分析
- 实现智能的图文问答功能
- 创建有趣的AI聊天体验
记住,掌握这个插件的关键是:
- 理解每个节点的作用 - 知道什么时候用哪个节点
- 学会提问的艺术 - 具体明确的问题得到更好的答案
- 合理调整参数 - 根据需求平衡准确性和创意性
- 多多实践 - 通过不断尝试来发现更多可能性