ComfyUI Gemini2 插件完全保姆级教程
1. 插件简介
插件地址:https://github.com/StartHua/Comfyui_Gemini2
这个插件是把谷歌的Gemini 2.0人工智能大脑接入到ComfyUI里面的神奇工具。就像给你的ComfyUI装了一个超级智能的小助手,这个小助手不仅能看图说话,还能帮你写文字、分析图片、甚至生成新的图片内容。
主要功能:
- 看图说话:就像有个朋友帮你描述图片里有什么
- 文字对话:可以和AI聊天,问问题得答案
- 图片分析:能分析图片的细节,比如颜色、构图、风格等
- 内容生成:根据你的要求生成新的文字内容
2. 如何安装
方法一:ComfyUI管理器安装(推荐新手)
- 打开ComfyUI
- 点击右侧的"Manager"按钮(就像手机上的应用商店)
- 选择"Install Custom Nodes"
- 搜索"Gemini2"
- 找到后点击"Install"
- 重启ComfyUI
方法二:手动安装
- 打开ComfyUI安装目录
- 找到
custom_nodes文件夹(就像一个专门放插件的抽屉) - 在这个文件夹里打开命令行工具
- 输入:
git clone https://github.com/StartHua/Comfyui_Gemini2.git - 等待下载完成
- 进入下载的文件夹,运行:
pip install -r requirements.txt - 重启ComfyUI
配置密钥
- 去 https://aistudio.google.com/ 申请谷歌Gemini的使用密钥(就像办一张会员卡)
- 在插件文件夹里找到
key.txt文件 - 把你的密钥粘贴进去并保存
3. 节点详细解析
3.1 Gemini文本生成节点
这个节点就像一个超级聪明的打字机,你输入一个想法,它就能帮你扩展成完整的文字内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | 具体明确的问题 | 就像给AI下指令,告诉它你想要什么 | 输入给模型的文本提示 | 输入"帮我写一个关于春天的诗" |
| 模型选择 | model | 下拉选择 | gemini-2.0-flash-exp | 选择AI的聪明程度,就像选择不同级别的助手 | 选择使用的Gemini模型版本 | 选择最新的2.0版本性能更好 |
| 最大输出长度 | max_output_tokens | 数字输入 | 1000-2000 | 限制AI回答的字数,就像限制作文的字数 | 控制生成文本的最大长度 | 写短文选1000,写长文选2000 |
| 温度 | temperature | 0.0-1.0 | 0.7 | 控制AI回答的创意程度,就像调节音箱音量 | 控制生成文本的随机性和创造性 | 0.3很规范,0.7有创意,1.0很随意 |
| 随机种子 | seed | 整数 | 随机 | 就像掷骰子的随机数,控制每次结果是否一样 | 控制生成结果的随机性 | 固定种子得到相同结果 |
3.2 Gemini图像分析节点
这个节点就像一个会看图的专家,能告诉你图片里有什么内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 图像输入 | image | 图片连接 | 必填 | 把要分析的图片连接到这里,就像把照片给朋友看 | 输入需要分析的图像数据 | 连接上游的图片加载节点 |
| 分析提示 | prompt | 文本输入 | "描述这张图片" | 告诉AI你想了解图片的什么内容 | 指定对图像的分析要求 | "这张图片的主要颜色是什么?" |
| 详细程度 | detail_level | 选择框 | detailed | 控制分析的详细程度,就像选择是简单描述还是详细描述 | 设置分析的详细程度 | simple简单,detailed详细 |
| 语言 | language | 选择框 | zh-CN | 选择回答的语言,就像选择用中文还是英文回答 | 设置输出语言 | zh-CN中文,en英文 |
| 模型选择 | model | 下拉选择 | gemini-2.0-flash-exp | 选择AI的版本,就像选择不同的专家 | 选择使用的Gemini模型 | 2.0版本看图能力更强 |
| 最大输出长度 | max_output_tokens | 数字输入 | 1000 | 限制描述的字数,就像限制描述的篇幅 | 控制输出文本长度 | 简单描述500,详细描述2000 |
| 温度 | temperature | 0.0-1.0 | 0.3 | 控制描述的创意程度,数值越低越客观 | 控制输出的随机性 | 0.3客观描述,0.7有创意描述 |
3.3 Gemini多模态对话节点
这个节点就像一个能看图又能聊天的全能助手,可以同时处理文字和图片。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本输入 | text_input | 文本输入 | 必填 | 你想说的话或问题,就像和朋友聊天 | 输入的文本内容 | "帮我分析这张图片的构图" |
| 图像输入 | image_input | 图片连接 | 可选 | 要讨论的图片,就像给朋友看照片 | 可选的图像输入 | 连接图片加载节点 |
| 系统提示 | system_prompt | 文本输入 | 可选 | 设置AI的角色,就像告诉它扮演什么专家 | 设置AI的行为模式 | "你是一个专业的摄影师" |
| 对话历史 | conversation_history | 文本输入 | 可选 | 之前的聊天记录,让AI记住上下文 | 保持对话连续性 | 连接之前的对话输出 |
| 模型选择 | model | 下拉选择 | gemini-2.0-flash-exp | 选择AI助手的版本 | 选择Gemini模型版本 | 2.0版本功能最全 |
| 最大输出长度 | max_output_tokens | 数字输入 | 1500 | 限制AI回答的长度 | 控制输出文本长度 | 对话选1500,分析选2000 |
| 温度 | temperature | 0.0-1.0 | 0.7 | 控制回答的创意程度 | 控制输出随机性 | 0.7平衡创意和准确性 |
| 安全设置 | safety_settings | 选择框 | medium | 设置内容安全级别,就像家长控制 | 控制内容安全过滤 | medium平衡,strict严格 |
3.4 Gemini图像生成节点
这个节点就像一个会画画的AI画家,能根据你的描述生成图片。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 描述文本 | description | 文本输入 | 必填 | 告诉AI你想画什么,就像给画家下订单 | 图像生成的文本描述 | "一只可爱的小猫在花园里玩耍" |
| 图像风格 | image_style | 选择框 | photorealistic | 选择图片风格,就像选择画画的风格 | 设置生成图像的风格 | photorealistic真实照片风格 |
| 图像尺寸 | image_size | 选择框 | 1024x1024 | 选择图片大小,就像选择画布大小 | 设置输出图像尺寸 | 1024x1024适合方形图 |
| 质量等级 | quality | 选择框 | high | 控制图片质量,就像选择画质清晰度 | 设置生成图像质量 | high高质量,medium中等 |
| 生成数量 | num_images | 数字输入 | 1 | 一次生成几张图,就像一次画几幅画 | 设置生成图像数量 | 1张节省时间,4张多选择 |
| 随机种子 | seed | 整数 | 随机 | 控制随机性,就像掷骰子的数字 | 控制生成结果的随机性 | 固定种子得到相似结果 |
| 引导强度 | guidance_scale | 1.0-20.0 | 7.0 | 控制AI按照描述生成的严格程度 | 控制提示词的影响强度 | 7.0平衡,15.0严格按描述 |
| 负面提示 | negative_prompt | 文本输入 | 可选 | 告诉AI不要画什么,就像告诉画家避免什么 | 指定不希望出现的内容 | "模糊,变形,低质量" |
3.5 Gemini文本编辑节点
这个节点就像一个文字编辑器,能帮你修改和完善文本内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 原始文本 | original_text | 文本输入 | 必填 | 需要修改的文本,就像给编辑看的原稿 | 输入需要编辑的文本 | 连接上游的文本输出 |
| 编辑指令 | edit_instruction | 文本输入 | 必填 | 告诉AI怎么修改,就像给编辑提要求 | 指定编辑操作类型 | "让这段文字更加生动有趣" |
| 编辑类型 | edit_type | 选择框 | improve | 选择编辑的类型,就像选择不同的修改方式 | 指定编辑操作类别 | improve改进,correct纠错 |
| 目标风格 | target_style | 选择框 | casual | 选择文字风格,就像选择说话的语气 | 设置目标文本风格 | casual轻松,formal正式 |
| 长度控制 | length_control | 选择框 | maintain | 控制文本长度变化,就像控制文章篇幅 | 控制输出文本长度 | maintain保持,shorter缩短 |
| 模型选择 | model | 下拉选择 | gemini-2.0-flash-exp | 选择AI编辑器的版本 | 选择Gemini模型 | 2.0版本编辑能力更强 |
| 最大输出长度 | max_output_tokens | 数字输入 | 2000 | 限制输出文本的最大长度 | 控制输出长度上限 | 2000适合长文本编辑 |
| 温度 | temperature | 0.0-1.0 | 0.5 | 控制编辑的创意程度 | 控制输出的随机性 | 0.5在准确和创意间平衡 |
4. 使用技巧和建议
4.1 提示词编写技巧
- 具体明确:别说"画个人",要说"画一个穿红色连衣裙的年轻女孩"
- 分步骤:复杂任务可以分解,就像做菜要分步骤
- 给例子:告诉AI你想要的风格,可以举个例子说明
- 设置角色:让AI扮演专家,比如"你是一个专业的摄影师"
4.2 参数调优建议
- 温度设置:
- 0.3:需要准确客观的回答
- 0.7:需要有创意的内容
- 1.0:需要很随意的创作
- 输出长度:
- 简单问答:500-1000
- 详细分析:1500-2000
- 长文创作:2000-4000
4.3 节点组合使用
- 图文分析流程:图像加载 → Gemini图像分析 → 文本输出
- 创意写作流程:文本输入 → Gemini文本生成 → 文本编辑
- 多轮对话:保存对话历史,连接下一轮对话
5. 常见问题解答
Q1:提示"API密钥无效"怎么办?
答:检查key.txt文件里的密钥是否正确,确保没有多余的空格或换行符。
Q2:生成的内容不符合预期怎么办?
答:
- 检查提示词是否足够具体
- 调整温度参数
- 尝试不同的模型版本
Q3:节点显示错误怎么办?
答:
- 检查网络连接
- 确认API密钥额度是否充足
- 查看ComfyUI控制台的错误信息
Q4:如何提高生成速度?
答:
- 使用较小的max_output_tokens值
- 选择flash模型而不是pro模型
- 避免同时运行多个Gemini节点
Q5:支持中文吗?
答:完全支持中文输入和输出,可以在language参数中选择zh-CN。
6. 进阶应用案例
6.1 自动图片标题生成
- 加载图片
- 连接Gemini图像分析节点
- 设置提示词:"为这张图片写一个吸引人的标题"
- 输出到文本显示节点
6.2 智能内容审核
- 输入文本或图片
- 设置系统提示为"你是一个内容审核专家"
- 询问内容是否合规
- 根据回答进行后续处理
6.3 创意写作助手
- 输入创作主题
- 设置温度为0.8增加创意
- 逐步引导AI完成创作
- 使用编辑节点润色文本
这个插件就像给你的ComfyUI装了一个超级智能的大脑,能帮你处理各种文字和图片任务。记住,多尝试不同的参数组合,你会发现更多有趣的用法!