ComfyUI-Gemini 插件保姆级教程
1. 插件简介
插件地址: https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini
这个插件就像是给你的 ComfyUI 装了一个"超级聪明的助手"!它能帮你写文字、看图片、聊天对话,甚至还能读取音频和视频文件。就像有了一个无所不知的朋友在旁边帮忙。
主要功能:
- 智能对话:像和真人聊天一样,可以问它任何问题
- 图片理解:给它一张图片,它能告诉你图片里有什么
- 文字生成:帮你写提示词、描述、故事等各种文字内容
- 文件分析:能读取音频、视频、文档等各种文件并分析内容
- 多轮对话:记住之前说过的话,像真正的聊天一样
能带来什么效果:
- 自动生成图片描述和提示词
- 创建智能聊天机器人
- 分析图片内容并生成相关文字
- 处理音频视频文件并提取信息
- 辅助创作各种文字内容
2. 如何安装
第一步:确保你已经安装了 ComfyUI
如果还没有,请先去安装 ComfyUI 主程序。
第二步:获取 Gemini API 密钥
- 访问 Gemini API 申请页面
- 登录你的 Google 账号
- 创建一个新的 API 密钥
- 复制并保存这个密钥(就像你的专属通行证)
第三步:安装插件
方法一:使用 ComfyUI Manager(推荐)
- 在 ComfyUI 界面中找到 Manager 按钮
- 搜索 "Gemini"
- 找到 "ComfyUI-Gemini" 并点击安装
方法二:手动安装
- 打开命令行(Windows 按 Win+R,输入 cmd)
- 进入你的 ComfyUI 安装目录下的 custom_nodes 文件夹
- 输入以下命令:
cd custom_nodes
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini.git
cd ComfyUI-Gemini
pip install -r requirements.txt
- 重启 ComfyUI
第四步:配置 API 密钥
- 找到插件文件夹中的
config.json文件 - 用文本编辑器打开它
- 把 "your key" 替换成你刚才获取的 API 密钥
- 保存文件
3. 节点详细解析
3.1 Gemini_API_Zho 节点 - 基础对话节点(显式密钥版)
这个节点就像一个"万能助手",你可以直接和它对话,问它问题或让它帮你做事情。这个版本需要你直接在节点上输入密钥。
3.2 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 这是你想问助手的问题或想让它做的事情 | 发送给Gemini模型的输入文本 | 输入"帮我写一个关于猫咪的故事"或"这张图片里有什么?" |
| 模型名称 | model_name | 选择列表 | gemini-pro | 选择不同的"大脑",每个有不同的能力 | 选择使用的Gemini模型版本 | gemini-pro适合纯文字,gemini-pro-vision能看图片 |
| 流式传输 | stream | 布尔值 | False | 决定是一次性给你完整答案,还是像打字一样慢慢显示 | 控制响应是否以流式方式返回 | 设为True可以看到逐字生成的过程,像真人打字 |
| API密钥 | api_key | 文本 | "" | 你的专属通行证,让你能使用这个服务 | Gemini API的访问密钥 | 输入你从Google获取的API密钥 |
| 图像(可选) | image | 图像 | 无 | 如果你想让助手看图片,就连接一张图片 | 可选的图像输入,用于视觉模型 | 连接图片加载器,让AI分析图片内容 |
3.3 Gemini_API_Vsion_ImgURL_Zho 节点 - 网络图片分析节点(显式密钥版)
这个节点专门用来分析网络上的图片,你只需要给它一个图片网址,它就能告诉你图片里有什么。
3.4 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "Describe this image" | 告诉助手你想让它对图片做什么分析 | 对图像进行分析的指令文本 | "描述这张图片"或"这张图片的主要内容是什么?" |
| 图片网址 | image_url | 文本 | "" | 网络上图片的地址,就像图片的家庭住址 | 要分析的图像的URL地址 | 输入完整的图片链接,如"https://example.com/image.jpg" |
| 模型名称 | model_name | 选择列表 | gemini-pro-vision | 选择能看图片的"大脑" | 支持视觉功能的Gemini模型 | 选择gemini-pro-vision或gemini-1.5-pro-latest |
| 流式传输 | stream | 布尔值 | False | 决定答案是一次性显示还是逐字显示 | 控制响应的输出方式 | True会像打字机一样慢慢显示结果 |
| API密钥 | api_key | 文本 | "" | 你的专属通行证 | Gemini API的访问密钥 | 输入你的API密钥 |
3.5 Gemini_API_Chat_Zho 节点 - 聊天对话节点(显式密钥版)
这个节点就像一个"记忆力很好的朋友",它会记住你们之前说过的话,可以进行连续的对话。
3.6 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 你想说的话或问的问题 | 当前轮次的对话输入 | "你好,我想聊聊天气"然后下次可以说"刚才我们聊的什么?" |
| 模型名称 | model_name | 选择列表 | gemini-pro | 选择对话用的"大脑" | 用于对话的Gemini模型 | gemini-pro适合纯文字聊天 |
| API密钥 | api_key | 文本 | "" | 你的专属通行证 | Gemini API的访问密钥 | 输入你的API密钥 |
| 图像(可选) | image | 图像 | 无 | 如果想在聊天中分享图片 | 可选的图像输入 | 连接图片让AI在对话中分析图片 |
3.7 Gemini_API_S_Zho 节点 - 基础对话节点(隐式密钥版)
这个节点和第一个功能一样,但是它会自动从配置文件读取密钥,更安全方便。
3.8 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 你想问助手的问题或让它做的事情 | 发送给Gemini模型的输入文本 | "帮我写一首关于春天的诗" |
| 模型名称 | model_name | 选择列表 | gemini-pro | 选择不同能力的"大脑" | 选择使用的Gemini模型版本 | 根据需要选择合适的模型 |
| 流式传输 | stream | 布尔值 | False | 控制答案显示方式 | 控制响应输出方式 | True可以看到逐字生成过程 |
| 图像(可选) | image | 图像 | 无 | 可选的图片输入 | 可选的图像输入 | 连接图片让AI分析 |
3.9 Gemini_API_S_Vsion_ImgURL_Zho 节点 - 网络图片分析节点(隐式密钥版)
这个节点专门分析网络图片,密钥从配置文件自动读取。
3.10 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "Describe this image" | 对图片的分析要求 | 图像分析指令 | "这张图片的情绪是什么?" |
| 图片网址 | image_url | 文本 | "" | 网络图片的地址 | 图像URL地址 | 输入完整的图片链接 |
| 模型名称 | model_name | 选择列表 | gemini-pro-vision | 能看图片的模型 | 视觉模型选择 | 选择支持图像的模型 |
| 流式传输 | stream | 布尔值 | False | 答案显示方式 | 响应输出控制 | 选择是否逐字显示 |
3.11 Gemini_API_S_Chat_Zho 节点 - 聊天对话节点(隐式密钥版)
记忆型聊天节点,密钥自动读取。
3.12 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 当前想说的话 | 对话输入文本 | "我们继续刚才的话题" |
| 模型名称 | model_name | 选择列表 | gemini-pro | 对话模型选择 | 聊天模型类型 | 选择适合的对话模型 |
| 图像(可选) | image | 图像 | 无 | 聊天中的图片 | 可选图像输入 | 在对话中分享图片 |
3.13 Gemini_15P_API_S_Advance_Zho 节点 - 高级对话节点
这是最新最强的节点,就像给助手设定了"工作规则",让它按照你的要求来回答问题。
3.14 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 你的问题或要求 | 用户输入的提示文本 | "帮我分析这张图片并生成提示词" |
| 系统指令 | system_instruction | 文本 | 默认指令 | 给助手设定的"工作规则",告诉它应该怎么回答 | 系统级别的行为指令 | "你是一个专业的图片分析师,请详细描述图片内容" |
| 模型名称 | model_name | 选择列表 | gemini-1.5-pro-latest | 最新最强的模型 | 最新版Gemini模型 | 使用最新的1.5 Pro版本 |
| 流式传输 | stream | 布尔值 | False | 答案显示方式 | 响应输出控制 | 选择显示方式 |
| 图像(可选) | image | 图像 | 无 | 可选图片输入 | 图像输入接口 | 连接需要分析的图片 |
3.15 Gemini_15P_API_S_Chat_Advance_Zho 节点 - 高级聊天节点
带有系统指令的聊天节点,可以设定聊天的风格和规则。
3.16 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本 | "What is the meaning of life?" | 对话内容 | 对话输入文本 | "我们来聊聊创作灵感" |
| 系统指令 | system_instruction | 文本 | 默认指令 | 设定聊天助手的性格和回答风格 | 系统行为指令 | "你是一个幽默风趣的创作助手" |
| 模型名称 | model_name | 选择列表 | gemini-1.5-pro-latest | 最新模型 | 模型版本选择 | 使用最新版本 |
| 图像(可选) | image | 图像 | 无 | 聊天中的图片 | 图像输入 | 在对话中分享图片 |
3.17 Gemini_FileUpload_API_S_Zho 节点 - 文件上传节点
这个节点就像一个"文件管家",帮你把各种文件(音频、视频、文档等)上传给助手。
3.18 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文件路径 | file | 文本 | "./sample.mp3" | 你要上传的文件在电脑上的位置 | 文件的完整路径 | 输入"C:/Users/你的用户名/Desktop/音频.mp3" |
3.19 Gemini_File_API_S_Zho 节点 - 文件分析节点
这个节点能读取和分析各种文件内容,就像一个"万能读者"。
3.20 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文件 | file | 文件类型 | 必须连接 | 从上传节点传来的文件 | 文件对象输入 | 连接文件上传节点的输出 |
| 提示词 | prompt | 文本 | 默认提示 | 告诉助手你想让它对文件做什么分析 | 文件分析指令 | "总结这个音频的主要内容" |
| 模型名称 | model_name | 选择列表 | gemini-1.5-pro-latest | 能处理文件的模型 | 支持文件处理的模型 | 使用1.5 Pro版本 |
| 流式传输 | stream | 布尔值 | False | 答案显示方式 | 响应输出控制 | 选择显示方式 |
3.21 ConcatText_Zho 节点 - 文字合并节点
这个节点就像一个"文字胶水",能把多段文字粘合在一起。
3.22 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本1 | text_1 | 文本 | 无默认值 | 第一段要合并的文字 | 第一个文本输入 | 输入"美丽的" |
| 文本2 | text_2 | 文本 | 无默认值 | 第二段要合并的文字 | 第二个文本输入 | 输入"风景画" |
3.23 DisplayText_Zho 节点 - 文字显示节点
这个节点就像一个"显示屏",专门用来显示文字内容,让你能清楚看到结果。
3.24 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本 | text | 文本 | 必须连接 | 要显示的文字内容 | 文本输入接口 | 连接其他节点的文字输出 |
4. 使用技巧和建议
4.1 选择合适的节点
新手推荐使用隐式密钥版本(带㊙️标记的节点):
- 更安全,不会泄露密钥
- 配置一次就能一直使用
- 适合分享工作流
不同场景的节点选择:
- 纯文字对话:使用 Gemini_API_S_Zho
- 图片分析:使用 Gemini_15P_API_S_Advance_Zho 并连接图片
- 连续聊天:使用 Gemini_API_S_Chat_Zho
- 文件处理:使用 Gemini_FileUpload_API_S_Zho + Gemini_File_API_S_Zho
4.2 提示词编写技巧
好的提示词特点:
- 清晰明确:直接说出你想要什么
- 具体详细:给出具体的要求和格式
- 友好礼貌:像和朋友聊天一样
提示词示例:
- ❌ 不好的:"分析图片"
- ✅ 好的:"请详细描述这张图片中的人物、场景和情绪,并用50字以内总结"
4.3 系统指令的妙用
系统指令就像给助手设定"工作守则":
- 角色设定:"你是一个专业的摄影师"
- 回答格式:"请用列表形式回答"
- 语言风格:"请用幽默风趣的语言"
- 专业领域:"你专门帮助用户创作Stable Diffusion提示词"
4.4 文件处理建议
支持的文件类型:
- 音频:MP3、WAV等
- 视频:MP4、AVI等(需要分段处理)
- 文档:TXT、PDF等
- 图片:JPG、PNG等
文件处理流程:
- 先用文件上传节点上传文件
- 再用文件分析节点处理
- 设置合适的提示词说明你的需求
5. 常见问题解答
Q1: 为什么提示"API key is required"?
A: 检查以下几点:
- 确认已经获取了有效的 Gemini API 密钥
- 检查 config.json 文件中的密钥是否正确填写
- 确认密钥没有过期或被禁用
- 重启 ComfyUI 让配置生效
Q2: 为什么连接不上 Gemini 服务?
A: 可能的原因:
- 网络连接问题,Gemini 需要能访问 Google 服务
- 建议使用 Colab 或 Kaggle 等云平台
- 检查防火墙设置
- 确认所在地区支持 Gemini 服务
Q3: 为什么图片分析不工作?
A: 检查以下:
- 确认选择了支持图片的模型(gemini-pro-vision 或 gemini-1.5-pro-latest)
- 图片格式是否支持(JPG、PNG等)
- 图片大小是否合适(不要太大)
- 网络图片链接是否有效
Q4: 聊天节点为什么不记住之前的对话?
A: 可能原因:
- 每次重新运行工作流会重置对话历史
- 确认使用的是 Chat 类型的节点
- 检查节点连接是否正确
Q5: 文件上传失败怎么办?
A: 解决方法:
- 检查文件路径是否正确
- 确认文件没有损坏
- 文件大小不要超过限制(20GB)
- 确认文件格式被支持
6. 创意应用案例
6.1 自动图片描述生成器
- 加载图片
- 用 Gemini_15P_API_S_Advance_Zho 分析图片
- 设置系统指令:"你是专业的图片描述师,请生成详细的图片描述"
- 用 DisplayText_Zho 显示结果
6.2 智能提示词生成器
- 输入简单的想法
- 设置系统指令:"你是 Stable Diffusion 提示词专家"
- 让 Gemini 生成专业的提示词
- 直接用于图片生成
6.3 多模态聊天机器人
- 使用 Chat 类型节点
- 可以同时发送文字和图片
- 助手会记住对话历史
- 创建连续的智能对话体验
6.4 音频内容分析器
- 用文件上传节点上传音频
- 用文件分析节点处理
- 设置提示词:"总结这段音频的主要内容"
- 获得音频的文字总结
7. 高级使用技巧
7.1 工作流组合建议
文字创作流水线:
- 输入创作主题 → Gemini生成大纲 → 展开详细内容 → 润色优化
图片分析流水线:
- 加载图片 → 基础描述 → 情感分析 → 艺术风格分析 → 综合报告
多媒体处理流水线:
- 上传文件 → 内容提取 → 关键信息总结 → 相关建议生成
7.2 提示词模板库
图片分析模板:
请从以下几个方面分析这张图片:
1. 主要内容和构图
2. 色彩和光线
3. 情绪和氛围
4. 艺术风格
请用专业但易懂的语言描述。
创作助手模板:
你是一个创意写作助手,请帮我:
1. 分析我的想法
2. 提供创作建议
3. 生成具体内容
请保持创意和实用性的平衡。
7.3 性能优化建议
提高响应速度:
- 使用简洁明确的提示词
- 避免过于复杂的要求
- 合理使用流式传输功能
节省API调用:
- 一次性提出完整问题
- 避免重复的简单询问
- 合理规划工作流程
8. 技术原理简单解释
虽然这是个技术教程,但我们用大白话解释一下原理:
- 连接服务:插件就像一个"翻译官",把你的话翻译成 Gemini 能理解的格式
- 发送请求:把你的问题和图片通过网络发送给 Google 的服务器
- 智能处理:Gemini 的"大脑"分析你的问题,理解图片内容
- 生成回答:根据分析结果生成合适的回答
- 返回结果:把答案传回给你的 ComfyUI
这就像是和一个住在云端的超级聪明朋友聊天,它能看、能听、能思考,还能记住你们的对话历史。
9. 版本差异说明
Gemini Pro vs Pro Vision vs 1.5 Pro:
Gemini Pro:
- 只能处理文字
- 速度较快
- 适合纯文字对话
Gemini Pro Vision:
- 能看图片
- 可以分析图片内容
- 适合图文结合的任务
Gemini 1.5 Pro:
- 最强版本,什么都能处理
- 支持超长文本(100万字符)
- 能处理音频、视频等文件
- 支持系统指令设置
10. 总结
ComfyUI-Gemini 是一个功能强大的AI助手插件,它的优点是:
主要优势:
- 功能全面:文字、图片、音频、视频都能处理
- 使用简单:连接节点就能使用
- 智能程度高:理解能力强,回答质量好
- 扩展性强:可以组合出各种创意应用
适合的用户:
- 内容创作者:需要AI辅助写作和创意
- 设计师:需要图片分析和描述
- 研究人员:需要处理多媒体内容
- 普通用户:想要智能助手帮忙
使用建议:
- 从简单的文字对话开始练习
- 逐步尝试图片和文件处理功能
- 学会写好的提示词和系统指令
- 多尝试不同的节点组合
记住,这个插件就像给你的 ComfyUI 装了一个超级大脑,善用它能让你的创作效率大大提升!