ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-Gemini插件使用教程 从入门到精通详解

ComfyUI-Gemini插件使用教程 从入门到精通详解

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-06-28
  • 28 次阅读
编程界的小学生
编程界的小学生

ComfyUI-Gemini 插件保姆级教程

1. 插件简介

插件地址: https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini

这个插件就像是给你的 ComfyUI 装了一个"超级聪明的助手"!它能帮你写文字、看图片、聊天对话,甚至还能读取音频和视频文件。就像有了一个无所不知的朋友在旁边帮忙。

主要功能:

  • 智能对话:像和真人聊天一样,可以问它任何问题
  • 图片理解:给它一张图片,它能告诉你图片里有什么
  • 文字生成:帮你写提示词、描述、故事等各种文字内容
  • 文件分析:能读取音频、视频、文档等各种文件并分析内容
  • 多轮对话:记住之前说过的话,像真正的聊天一样

能带来什么效果:

  • 自动生成图片描述和提示词
  • 创建智能聊天机器人
  • 分析图片内容并生成相关文字
  • 处理音频视频文件并提取信息
  • 辅助创作各种文字内容

2. 如何安装

第一步:确保你已经安装了 ComfyUI

如果还没有,请先去安装 ComfyUI 主程序。

第二步:获取 Gemini API 密钥

  1. 访问 Gemini API 申请页面
  2. 登录你的 Google 账号
  3. 创建一个新的 API 密钥
  4. 复制并保存这个密钥(就像你的专属通行证)

第三步:安装插件

方法一:使用 ComfyUI Manager(推荐)

  1. 在 ComfyUI 界面中找到 Manager 按钮
  2. 搜索 "Gemini"
  3. 找到 "ComfyUI-Gemini" 并点击安装

方法二:手动安装

  1. 打开命令行(Windows 按 Win+R,输入 cmd)
  2. 进入你的 ComfyUI 安装目录下的 custom_nodes 文件夹
  3. 输入以下命令:
cd custom_nodes
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini.git
cd ComfyUI-Gemini
pip install -r requirements.txt
  1. 重启 ComfyUI

第四步:配置 API 密钥

  1. 找到插件文件夹中的 config.json 文件
  2. 用文本编辑器打开它
  3. 把 "your key" 替换成你刚才获取的 API 密钥
  4. 保存文件

3. 节点详细解析

3.1 Gemini_API_Zho 节点 - 基础对话节点(显式密钥版)

这个节点就像一个"万能助手",你可以直接和它对话,问它问题或让它帮你做事情。这个版本需要你直接在节点上输入密钥。

3.2 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"这是你想问助手的问题或想让它做的事情发送给Gemini模型的输入文本输入"帮我写一个关于猫咪的故事"或"这张图片里有什么?"
模型名称model_name选择列表gemini-pro选择不同的"大脑",每个有不同的能力选择使用的Gemini模型版本gemini-pro适合纯文字,gemini-pro-vision能看图片
流式传输stream布尔值False决定是一次性给你完整答案,还是像打字一样慢慢显示控制响应是否以流式方式返回设为True可以看到逐字生成的过程,像真人打字
API密钥api_key文本""你的专属通行证,让你能使用这个服务Gemini API的访问密钥输入你从Google获取的API密钥
图像(可选)image图像无如果你想让助手看图片,就连接一张图片可选的图像输入,用于视觉模型连接图片加载器,让AI分析图片内容

3.3 Gemini_API_Vsion_ImgURL_Zho 节点 - 网络图片分析节点(显式密钥版)

这个节点专门用来分析网络上的图片,你只需要给它一个图片网址,它就能告诉你图片里有什么。

3.4 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"Describe this image"告诉助手你想让它对图片做什么分析对图像进行分析的指令文本"描述这张图片"或"这张图片的主要内容是什么?"
图片网址image_url文本""网络上图片的地址,就像图片的家庭住址要分析的图像的URL地址输入完整的图片链接,如"https://example.com/image.jpg"
模型名称model_name选择列表gemini-pro-vision选择能看图片的"大脑"支持视觉功能的Gemini模型选择gemini-pro-vision或gemini-1.5-pro-latest
流式传输stream布尔值False决定答案是一次性显示还是逐字显示控制响应的输出方式True会像打字机一样慢慢显示结果
API密钥api_key文本""你的专属通行证Gemini API的访问密钥输入你的API密钥

3.5 Gemini_API_Chat_Zho 节点 - 聊天对话节点(显式密钥版)

这个节点就像一个"记忆力很好的朋友",它会记住你们之前说过的话,可以进行连续的对话。

3.6 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"你想说的话或问的问题当前轮次的对话输入"你好,我想聊聊天气"然后下次可以说"刚才我们聊的什么?"
模型名称model_name选择列表gemini-pro选择对话用的"大脑"用于对话的Gemini模型gemini-pro适合纯文字聊天
API密钥api_key文本""你的专属通行证Gemini API的访问密钥输入你的API密钥
图像(可选)image图像无如果想在聊天中分享图片可选的图像输入连接图片让AI在对话中分析图片

3.7 Gemini_API_S_Zho 节点 - 基础对话节点(隐式密钥版)

这个节点和第一个功能一样,但是它会自动从配置文件读取密钥,更安全方便。

3.8 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"你想问助手的问题或让它做的事情发送给Gemini模型的输入文本"帮我写一首关于春天的诗"
模型名称model_name选择列表gemini-pro选择不同能力的"大脑"选择使用的Gemini模型版本根据需要选择合适的模型
流式传输stream布尔值False控制答案显示方式控制响应输出方式True可以看到逐字生成过程
图像(可选)image图像无可选的图片输入可选的图像输入连接图片让AI分析

3.9 Gemini_API_S_Vsion_ImgURL_Zho 节点 - 网络图片分析节点(隐式密钥版)

这个节点专门分析网络图片,密钥从配置文件自动读取。

3.10 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"Describe this image"对图片的分析要求图像分析指令"这张图片的情绪是什么?"
图片网址image_url文本""网络图片的地址图像URL地址输入完整的图片链接
模型名称model_name选择列表gemini-pro-vision能看图片的模型视觉模型选择选择支持图像的模型
流式传输stream布尔值False答案显示方式响应输出控制选择是否逐字显示

3.11 Gemini_API_S_Chat_Zho 节点 - 聊天对话节点(隐式密钥版)

记忆型聊天节点,密钥自动读取。

3.12 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"当前想说的话对话输入文本"我们继续刚才的话题"
模型名称model_name选择列表gemini-pro对话模型选择聊天模型类型选择适合的对话模型
图像(可选)image图像无聊天中的图片可选图像输入在对话中分享图片

3.13 Gemini_15P_API_S_Advance_Zho 节点 - 高级对话节点

这是最新最强的节点,就像给助手设定了"工作规则",让它按照你的要求来回答问题。

3.14 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"你的问题或要求用户输入的提示文本"帮我分析这张图片并生成提示词"
系统指令system_instruction文本默认指令给助手设定的"工作规则",告诉它应该怎么回答系统级别的行为指令"你是一个专业的图片分析师,请详细描述图片内容"
模型名称model_name选择列表gemini-1.5-pro-latest最新最强的模型最新版Gemini模型使用最新的1.5 Pro版本
流式传输stream布尔值False答案显示方式响应输出控制选择显示方式
图像(可选)image图像无可选图片输入图像输入接口连接需要分析的图片

3.15 Gemini_15P_API_S_Chat_Advance_Zho 节点 - 高级聊天节点

带有系统指令的聊天节点,可以设定聊天的风格和规则。

3.16 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
提示词prompt文本"What is the meaning of life?"对话内容对话输入文本"我们来聊聊创作灵感"
系统指令system_instruction文本默认指令设定聊天助手的性格和回答风格系统行为指令"你是一个幽默风趣的创作助手"
模型名称model_name选择列表gemini-1.5-pro-latest最新模型模型版本选择使用最新版本
图像(可选)image图像无聊天中的图片图像输入在对话中分享图片

3.17 Gemini_FileUpload_API_S_Zho 节点 - 文件上传节点

这个节点就像一个"文件管家",帮你把各种文件(音频、视频、文档等)上传给助手。

3.18 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
文件路径file文本"./sample.mp3"你要上传的文件在电脑上的位置文件的完整路径输入"C:/Users/你的用户名/Desktop/音频.mp3"

3.19 Gemini_File_API_S_Zho 节点 - 文件分析节点

这个节点能读取和分析各种文件内容,就像一个"万能读者"。

3.20 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
文件file文件类型必须连接从上传节点传来的文件文件对象输入连接文件上传节点的输出
提示词prompt文本默认提示告诉助手你想让它对文件做什么分析文件分析指令"总结这个音频的主要内容"
模型名称model_name选择列表gemini-1.5-pro-latest能处理文件的模型支持文件处理的模型使用1.5 Pro版本
流式传输stream布尔值False答案显示方式响应输出控制选择显示方式

3.21 ConcatText_Zho 节点 - 文字合并节点

这个节点就像一个"文字胶水",能把多段文字粘合在一起。

3.22 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
文本1text_1文本无默认值第一段要合并的文字第一个文本输入输入"美丽的"
文本2text_2文本无默认值第二段要合并的文字第二个文本输入输入"风景画"

3.23 DisplayText_Zho 节点 - 文字显示节点

这个节点就像一个"显示屏",专门用来显示文字内容,让你能清楚看到结果。

3.24 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
文本text文本必须连接要显示的文字内容文本输入接口连接其他节点的文字输出

4. 使用技巧和建议

4.1 选择合适的节点

新手推荐使用隐式密钥版本(带㊙️标记的节点):

  • 更安全,不会泄露密钥
  • 配置一次就能一直使用
  • 适合分享工作流

不同场景的节点选择:

  • 纯文字对话:使用 Gemini_API_S_Zho
  • 图片分析:使用 Gemini_15P_API_S_Advance_Zho 并连接图片
  • 连续聊天:使用 Gemini_API_S_Chat_Zho
  • 文件处理:使用 Gemini_FileUpload_API_S_Zho + Gemini_File_API_S_Zho

4.2 提示词编写技巧

好的提示词特点:

  • 清晰明确:直接说出你想要什么
  • 具体详细:给出具体的要求和格式
  • 友好礼貌:像和朋友聊天一样

提示词示例:

  • ❌ 不好的:"分析图片"
  • ✅ 好的:"请详细描述这张图片中的人物、场景和情绪,并用50字以内总结"

4.3 系统指令的妙用

系统指令就像给助手设定"工作守则":

  • 角色设定:"你是一个专业的摄影师"
  • 回答格式:"请用列表形式回答"
  • 语言风格:"请用幽默风趣的语言"
  • 专业领域:"你专门帮助用户创作Stable Diffusion提示词"

4.4 文件处理建议

支持的文件类型:

  • 音频:MP3、WAV等
  • 视频:MP4、AVI等(需要分段处理)
  • 文档:TXT、PDF等
  • 图片:JPG、PNG等

文件处理流程:

  1. 先用文件上传节点上传文件
  2. 再用文件分析节点处理
  3. 设置合适的提示词说明你的需求

5. 常见问题解答

Q1: 为什么提示"API key is required"?

A: 检查以下几点:

  • 确认已经获取了有效的 Gemini API 密钥
  • 检查 config.json 文件中的密钥是否正确填写
  • 确认密钥没有过期或被禁用
  • 重启 ComfyUI 让配置生效

Q2: 为什么连接不上 Gemini 服务?

A: 可能的原因:

  • 网络连接问题,Gemini 需要能访问 Google 服务
  • 建议使用 Colab 或 Kaggle 等云平台
  • 检查防火墙设置
  • 确认所在地区支持 Gemini 服务

Q3: 为什么图片分析不工作?

A: 检查以下:

  • 确认选择了支持图片的模型(gemini-pro-vision 或 gemini-1.5-pro-latest)
  • 图片格式是否支持(JPG、PNG等)
  • 图片大小是否合适(不要太大)
  • 网络图片链接是否有效

Q4: 聊天节点为什么不记住之前的对话?

A: 可能原因:

  • 每次重新运行工作流会重置对话历史
  • 确认使用的是 Chat 类型的节点
  • 检查节点连接是否正确

Q5: 文件上传失败怎么办?

A: 解决方法:

  • 检查文件路径是否正确
  • 确认文件没有损坏
  • 文件大小不要超过限制(20GB)
  • 确认文件格式被支持

6. 创意应用案例

6.1 自动图片描述生成器

  1. 加载图片
  2. 用 Gemini_15P_API_S_Advance_Zho 分析图片
  3. 设置系统指令:"你是专业的图片描述师,请生成详细的图片描述"
  4. 用 DisplayText_Zho 显示结果

6.2 智能提示词生成器

  1. 输入简单的想法
  2. 设置系统指令:"你是 Stable Diffusion 提示词专家"
  3. 让 Gemini 生成专业的提示词
  4. 直接用于图片生成

6.3 多模态聊天机器人

  1. 使用 Chat 类型节点
  2. 可以同时发送文字和图片
  3. 助手会记住对话历史
  4. 创建连续的智能对话体验

6.4 音频内容分析器

  1. 用文件上传节点上传音频
  2. 用文件分析节点处理
  3. 设置提示词:"总结这段音频的主要内容"
  4. 获得音频的文字总结

7. 高级使用技巧

7.1 工作流组合建议

文字创作流水线:

  • 输入创作主题 → Gemini生成大纲 → 展开详细内容 → 润色优化

图片分析流水线:

  • 加载图片 → 基础描述 → 情感分析 → 艺术风格分析 → 综合报告

多媒体处理流水线:

  • 上传文件 → 内容提取 → 关键信息总结 → 相关建议生成

7.2 提示词模板库

图片分析模板:

请从以下几个方面分析这张图片:
1. 主要内容和构图
2. 色彩和光线
3. 情绪和氛围
4. 艺术风格
请用专业但易懂的语言描述。

创作助手模板:

你是一个创意写作助手,请帮我:
1. 分析我的想法
2. 提供创作建议
3. 生成具体内容
请保持创意和实用性的平衡。

7.3 性能优化建议

提高响应速度:

  • 使用简洁明确的提示词
  • 避免过于复杂的要求
  • 合理使用流式传输功能

节省API调用:

  • 一次性提出完整问题
  • 避免重复的简单询问
  • 合理规划工作流程

8. 技术原理简单解释

虽然这是个技术教程,但我们用大白话解释一下原理:

  1. 连接服务:插件就像一个"翻译官",把你的话翻译成 Gemini 能理解的格式
  2. 发送请求:把你的问题和图片通过网络发送给 Google 的服务器
  3. 智能处理:Gemini 的"大脑"分析你的问题,理解图片内容
  4. 生成回答:根据分析结果生成合适的回答
  5. 返回结果:把答案传回给你的 ComfyUI

这就像是和一个住在云端的超级聪明朋友聊天,它能看、能听、能思考,还能记住你们的对话历史。

9. 版本差异说明

Gemini Pro vs Pro Vision vs 1.5 Pro:

Gemini Pro:

  • 只能处理文字
  • 速度较快
  • 适合纯文字对话

Gemini Pro Vision:

  • 能看图片
  • 可以分析图片内容
  • 适合图文结合的任务

Gemini 1.5 Pro:

  • 最强版本,什么都能处理
  • 支持超长文本(100万字符)
  • 能处理音频、视频等文件
  • 支持系统指令设置

10. 总结

ComfyUI-Gemini 是一个功能强大的AI助手插件,它的优点是:

主要优势:

  • 功能全面:文字、图片、音频、视频都能处理
  • 使用简单:连接节点就能使用
  • 智能程度高:理解能力强,回答质量好
  • 扩展性强:可以组合出各种创意应用

适合的用户:

  • 内容创作者:需要AI辅助写作和创意
  • 设计师:需要图片分析和描述
  • 研究人员:需要处理多媒体内容
  • 普通用户:想要智能助手帮忙

使用建议:

  • 从简单的文字对话开始练习
  • 逐步尝试图片和文件处理功能
  • 学会写好的提示词和系统指令
  • 多尝试不同的节点组合

记住,这个插件就像给你的 ComfyUI 装了一个超级大脑,善用它能让你的创作效率大大提升!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号