ComfyUI-GeminiImageToPrompt 插件教程 - 让 Gemini 帮你看图说话
1. 插件简介
这是一个能让 Google 家的 Gemini 人工智能帮你"看图说话"的小帮手。它能看懂你给它的图片,然后用文字详细地描述出来,就像一个细心的图片解说员。
GitHub 地址:https://github.com/santiagosamuel3455/ComfyUI-GeminiImageToPrompt
2. 安装方法
有两种方式可以安装这个插件:
方法一:直接用 Git 克隆(推荐)
- 打开你的 ComfyUI 文件夹
- 找到
custom_nodes文件夹 - 在这个文件夹里打开命令行
- 输入下面这行命令:
git clone https://github.com/santiago/ComfyUI-GeminiImageToPrompt
方法二:手动下载
- 访问上面的 GitHub 地址
- 点击绿色的 "Code" 按钮,选择 "Download ZIP"
- 解压下载的文件
- 把解压出来的文件夹放到 ComfyUI 的
custom_nodes目录下
3. 节点解析
3.1 GeminiImageToPrompt 节点
这个节点就像一个会说话的望远镜,你给它看一张图片,它就能给你详细描述这张图片里有什么。
参数详解
| 参数名(显示) | 参数名(代码) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用示例 |
|---|---|---|---|---|---|---|
| Image | image | 图片输入 | - | 你想让 AI 描述的图片 | 输入的图像数据 | 连接一张图片到这里 |
| Api Key | api_key | 文本 | - | 你的 Gemini API 密钥 | Google Gemini API 认证密钥 | 填入你从 Google AI Studio 获得的 API 密钥 |
| Maximum Tokens | max_tokens | 数字 | 2048 | AI 回答的最大字数限制 | 生成文本的最大标记数 | 一般用默认值就好 |
| Language | language | 文本 | en | 想要 AI 用什么语言回答 | 输出文本的语言代码 | "en"表示英文,"zh"表示中文 |
3.2 GeminiImageToPromptBasic 节点
这是一个简化版的图片描述节点,功能和上面那个差不多,但是更简单一些。
参数详解
| 参数名(显示) | 参数名(代码) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用示例 |
|---|---|---|---|---|---|---|
| Image | image | 图片输入 | - | 需要描述的图片 | 输入的图像数据 | 连接一张图片到这里 |
| Api Key | api_key | 文本 | - | Gemini API 密钥 | Google Gemini API 认证密钥 | 填入你的 API 密钥 |
4. 使用技巧和建议
- 在使用前,先去 Google AI Studio 申请一个免费的 API 密钥
- 图片最好清晰一些,这样 AI 描述得会更准确
- 如果想要中文描述,记得在高级版节点把 Language 改成 "zh"
- 建议从小图片开始测试,因为大图片处理起来会比较慢
5. 常见问题解答
Q:为什么节点显示错误? A:最常见的原因是 API 密钥没填对,或者忘记填了。检查一下密钥是否正确输入。
Q:描述的内容不够准确怎么办? A:可以试试用更清晰、主题更突出的图片,或者调整 max_tokens 参数让 AI 说得更详细一些。
Q:处理大图片特别慢怎么办? A:建议先把图片压缩一下再使用,一般 1024px 宽度就足够了。
6. 补充说明
- 这个插件完全免费,但需要使用 Google 的 API
- API 有每天的使用限额,建议注意控制使用频率
- 描述的质量会因图片质量和清晰度而异
- 支持多种图片格式,包括 JPG、PNG 等常见格式