ComfyUI-OllamaGemini 插件完全教程
1. 插件简介
插件地址: https://github.com/al-swaiti/ComfyUI-OllamaGemini
这个插件就像是给你的 ComfyUI 装上了一个超级大脑!它能让你的 ComfyUI 连接到各种聪明的人工智能服务,就像给你的图像处理工具箱里加了一堆智能助手。
这个插件能给我们带来什么效果?
- 智能对话助手 - 就像有个专业摄影师在旁边指导你,帮你写出更好的图片描述
- 自动生成图片 - 直接用文字描述就能生成图片,不需要复杂的节点连接
- 智能抠图 - 自动去除图片背景,比美图秀秀还厉害
- 图片转矢量图 - 把普通图片变成可以无限放大不失真的矢量图
- 智能提示词生成 - 自动帮你写出专业的图片生成提示词
- 多种尺寸预设 - 一键选择各种常用的图片尺寸
插件包含节点总数: 约35个节点
2. 如何安装
方法一:通过 ComfyUI Manager 安装(推荐)
- 确保你已经安装了 ComfyUI Manager
- 在 ComfyUI 界面中,点击 Manager 标签
- 搜索 "OllamaGemini"
- 点击安装按钮
- 重启 ComfyUI
方法二:手动安装
- 打开终端或命令提示符
- 进入你的 ComfyUI 安装目录下的 custom_nodes 文件夹
- 运行命令:
git clone https://github.com/al-swaiti/ComfyUI-OllamaGemini.git - 安装依赖包:
pip install google-genai google-generativeai openai>=1.3.0 anthropic>=0.8.0 requests>=2.31.0 vtracer>=0.6.0 dashscope>=1.13.6 Pillow>=10.0.0 scipy>=1.10.0 opencv-python transformers>=4.30.0 torch torchaudio - 重启 ComfyUI
API 密钥配置
安装完成后,你需要配置各种 AI 服务的密钥。插件会自动创建一个 config.json 文件,你需要填入相应的 API 密钥:
- Google Gemini: 免费,到 https://makersuite.google.com/app/apikey 获取
- OpenAI: 付费,到 https://platform.openai.com/api-keys 获取
- Claude: 有限免费,到 https://console.anthropic.com/ 获取
- Ollama: 完全免费,本地运行,到 https://ollama.com/ 下载
3. 节点详细解析
3.1 Gemini API 节点 - 谷歌智能助手
这个节点就像是请了一个谷歌的人工智能专家来帮你,它能看图片、听音频、看视频,然后用文字回答你的问题。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "描述这张图片" | 就像跟人说话一样,告诉AI你想让它做什么 | 用户输入的指令文本,用于指导AI生成相应的回复 | 输入"帮我写一个关于猫咪的故事",AI就会写故事给你 |
| 输入类型 | input_type | text/image/video/audio | text | 选择你要给AI看什么类型的内容 | 指定输入数据的媒体类型,决定AI如何处理输入 | 选择"image"然后连接图片,AI就能看图说话 |
| 模型选择 | gemini_model | 模型列表 | gemini-2.0-flash | 选择不同聪明程度的AI大脑 | 选择不同版本的Gemini模型,性能和功能有差异 | 用flash版本速度快,用pro版本更聪明 |
| 流式输出 | stream | true/false | false | 是否要看到AI一个字一个字地回答 | 控制是否实时显示生成过程 | 开启后能看到AI思考的过程,像打字机一样 |
| 结构化输出 | structure_output | true/false | false | 让AI按照特定格式回答 | 要求AI按照预定义的模板格式输出内容 | 开启后AI会按照你设定的格式整齐地回答 |
| 提示词结构 | prompt_structure | Custom/FLUX.1-dev/SDXL等 | Custom | 选择专业的提示词模板 | 预设的提示词优化模板,针对不同AI模型优化 | 选择SDXL模板能生成更适合SDXL模型的提示词 |
| 结构格式 | structure_format | 文本输入 | "只返回提示词文本" | 告诉AI用什么格式回答你 | 定义输出内容的具体格式要求 | 输入"用JSON格式回答",AI就会用JSON格式 |
| 输出格式 | output_format | raw_text/json | raw_text | 选择要纯文本还是JSON格式 | 指定最终输出的数据格式 | 选择json格式方便其他程序处理 |
3.2 Ollama API 节点 - 本地智能助手
这个节点就像在你自己电脑上养了一个AI宠物,不需要联网,完全免费使用。它能处理文字、图片、视频和音频。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "你好,请介绍一下自己" | 跟本地AI说话的内容 | 发送给本地Ollama模型的指令文本 | 输入"翻译这段话:Hello World"让AI翻译 |
| 输入类型 | input_type | text/image/video/audio | text | 告诉AI你要给它看什么 | 指定要处理的媒体数据类型 | 选择image可以让AI分析图片内容 |
| 模型选择 | ollama_model | 本地模型列表 | llama2 | 选择你电脑里安装的AI模型 | 选择已安装的Ollama模型进行推理 | 用llama2处理中文,用codellama写代码 |
| 保持活跃时间 | keep_alive | 0-60分钟 | 0 | AI在内存里待多久不睡觉 | 模型在内存中保持加载的时间 | 设置5分钟,连续对话时不用重新加载模型 |
| 结构化输出 | structure_output | true/false | false | 让AI按格式回答 | 要求输出符合特定结构 | 开启后AI会按照模板整齐回答 |
| 提示词结构 | prompt_structure | Custom/FLUX.1-dev/SDXL等 | Custom | 选择专业提示词模板 | 使用预设的提示词优化模板 | 选择VideoGen模板生成视频相关提示词 |
| 结构格式 | structure_format | 文本输入 | "只返回提示词" | 定义回答的具体格式 | 指定输出内容的格式规范 | 输入"用列表格式回答",AI就用列表 |
| 输出格式 | output_format | raw_text/json | raw_text | 选择文本还是JSON格式 | 最终输出的数据格式类型 | JSON格式便于程序处理数据 |
3.3 OpenAI API 节点 - ChatGPT智能助手
这个节点就是大名鼎鼎的ChatGPT,是目前最聪明的AI之一,但需要付费使用。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "帮我写一个故事" | 告诉ChatGPT你想要什么 | 发送给OpenAI模型的指令文本 | 输入"解释量子物理",ChatGPT会详细解释 |
| 模型选择 | model | gpt-4o/gpt-3.5-turbo等 | gpt-4o | 选择不同版本的ChatGPT | 选择OpenAI提供的不同能力模型 | gpt-4o最聪明但贵,gpt-3.5便宜但稍弱 |
| 最大回复长度 | max_tokens | 1-4096 | 1024 | 限制AI回答的字数 | 控制生成文本的最大长度 | 设置100字写短文,设置2000字写长文 |
| 创造性程度 | temperature | 0.0-2.0 | 0.7 | 控制AI回答的创意程度 | 控制输出的随机性和创造性 | 0.1很严谨,1.5很有创意但可能不准确 |
| 核心采样 | top_p | 0.0-1.0 | 0.7 | 控制AI选词的范围 | 核心采样参数,影响词汇选择多样性 | 0.1选择最可能的词,0.9选择更多样的词 |
| 流式输出 | stream | true/false | false | 是否实时显示AI打字过程 | 控制是否流式返回生成内容 | 开启后能看到AI一个字一个字地回答 |
| 结构化输出 | structure_output | true/false | false | 让AI按特定格式回答 | 要求输出符合预定义结构 | 开启后AI会按照你的模板格式回答 |
| 提示词结构 | prompt_structure | Custom/FLUX.1-dev/SDXL等 | Custom | 选择专业提示词模板 | 使用针对特定模型优化的模板 | 选择FLUX模板生成适合FLUX的提示词 |
| 结构格式 | structure_format | 文本输入 | "只返回提示词" | 定义具体的回答格式 | 指定输出内容的格式要求 | 输入"用表格格式",AI就用表格回答 |
| 输出格式 | output_format | raw_text/json | raw_text | 选择纯文本或JSON | 最终输出的数据格式 | JSON格式方便程序自动处理 |
3.4 Claude API 节点 - 人类化AI助手
Claude是另一个非常聪明的AI,特别擅长理解人类的意图,回答更像人类。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "请帮我分析这个问题" | 告诉Claude你需要什么帮助 | 发送给Claude模型的指令文本 | 输入"帮我写邮件",Claude会写得很人性化 |
| 模型选择 | model | claude-3-7-sonnet等 | claude-3-7-sonnet | 选择不同版本的Claude | 选择Anthropic提供的不同Claude模型 | sonnet版本平衡,opus版本最聪明 |
| 最大回复长度 | max_tokens | 1-4096 | 1024 | 限制Claude回答的长度 | 控制生成文本的最大token数 | 设置500适合短回答,2000适合长文章 |
| 结构化输出 | structure_output | true/false | false | 让Claude按格式回答 | 要求输出符合特定结构模板 | 开启后Claude会按照你的要求整齐回答 |
| 提示词结构 | prompt_structure | Custom/FLUX.1-dev/SDXL等 | Custom | 选择专业提示词模板 | 使用预设的提示词优化模板 | 选择SDXL模板生成图像生成提示词 |
| 结构格式 | structure_format | 文本输入 | "只返回提示词" | 定义回答的具体格式 | 指定输出内容的格式规范 | 输入"用要点形式",Claude就用要点回答 |
| 输出格式 | output_format | raw_text/json | raw_text | 选择文本还是JSON格式 | 最终输出的数据格式类型 | JSON格式便于其他节点处理数据 |
3.5 Qwen API 节点 - 阿里巴巴智能助手
这是阿里巴巴开发的AI助手,特别擅长处理中文,对中国文化理解更深。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "请用中文回答" | 告诉通义千问你的需求 | 发送给Qwen模型的指令文本 | 输入"写一首古诗",它会写得很有中国味 |
| 模型选择 | qwen_model | qwen-max/qwen-plus等 | qwen-max | 选择不同版本的通义千问 | 选择阿里云提供的不同Qwen模型 | qwen-max最强,qwen-turbo最快 |
| 最大回复长度 | max_tokens | 1-8192 | 1024 | 限制AI回答的字数 | 控制生成文本的最大长度 | 设置200字写短文,设置4000字写长文 |
| 创造性程度 | temperature | 0.0-2.0 | 0.7 | 控制回答的创意程度 | 控制输出的随机性和创造性 | 0.1很严谨,1.5很有创意 |
| 核心采样 | top_p | 0.0-1.0 | 0.7 | 控制选词的多样性 | 核心采样参数,影响词汇选择 | 0.1选最可能的词,0.9选择更丰富 |
| 结构化输出 | structure_output | true/false | false | 让AI按格式回答 | 要求输出符合特定结构 | 开启后AI会按照模板整齐回答 |
| 提示词结构 | prompt_structure | Custom/FLUX.1-dev/SDXL等 | Custom | 选择专业提示词模板 | 使用预设的提示词优化模板 | 选择合适模板生成专业提示词 |
| 结构格式 | structure_format | 文本输入 | "只返回提示词" | 定义回答的具体格式 | 指定输出内容的格式要求 | 输入"用JSON格式",AI就用JSON |
| 输出格式 | output_format | raw_text/json | raw_text | 选择文本还是JSON格式 | 最终输出的数据格式类型 | JSON格式便于程序处理 |
3.6 Gemini Image Generator 节点 - 谷歌图像生成器
这个节点就像有个专业画家,你用文字描述想要的图片,它就能直接画出来给你。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 提示词 | prompt | 文本输入 | "一只可爱的卡通猫" | 描述你想要的图片内容 | 用于指导图像生成的文本描述 | 输入"夕阳下的城市天际线"生成城市风景 |
| 模型选择 | model | gemini-2.0-flash等 | gemini-2.0-flash | 选择不同的图像生成引擎 | 选择Google提供的图像生成模型 | flash版本速度快,适合快速生成 |
| 文件前缀 | file_prefix | 文本输入 | "gemini_image" | 给生成的图片起个名字前缀 | 保存图像文件时的文件名前缀 | 输入"my_cat",文件名就是my_cat.png |
| 负面提示词 | negative_prompt | 文本输入 | "模糊,低质量" | 告诉AI不要画什么 | 指定不希望在图像中出现的元素 | 输入"黑白,模糊"避免生成黑白模糊图 |
| 参考图片1 | image | 图片输入 | 无 | 给AI一张参考图片 | 作为生成参考的输入图像 | 上传一张猫的照片,AI会生成类似风格的猫 |
| 参考图片2 | image2 | 图片输入 | 无 | 再给AI一张参考图片 | 第二张参考图像,用于风格融合 | 同时参考两张不同风格的图片 |
3.7 Smart Prompt Generator 节点 - 智能提示词生成器
这个节点就像有个专业的提示词写手,能自动帮你写出各种风格的专业提示词。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 基础提示词 | base_prompt | 文本输入 | "一个美丽的风景" | 你想要的基本内容描述 | 作为生成基础的原始提示词 | 输入"一只猫",系统会扩展成专业提示词 |
| 负面提示词 | negative_prompt | 文本输入 | "" | 不想要的内容 | 指定要避免的图像元素 | 输入"模糊,变形"避免生成质量差的图 |
| 随机模式 | random_mode | Disabled/Random Styles Only等 | Disabled | 选择自动化程度 | 控制提示词生成的随机化程度 | 选择"Fully Random"完全随机生成 |
| 随机风格数量 | num_random_styles | 1-10 | 3 | 要混合多少种风格 | 随机选择的风格类别数量 | 设置5会混合5种不同的艺术风格 |
| 随机种子 | randomize_seed | 0-999999999 | 0 | 控制随机结果的种子 | 用于控制随机生成结果的种子值 | 设置固定数字可以重现相同结果 |
| 保留用户文本 | preserve_user_text | true/false | true | 是否保留你原来写的内容 | 控制是否在最终结果中保留原始文本 | 开启后你的原始描述会被保留 |
| 艺术家风格 | artist_style | 艺术家列表 | None | 选择特定艺术家的风格 | 应用特定艺术家的绘画风格 | 选择"梵高"会添加梵高的绘画风格 |
| 通用艺术风格 | general-arts_style | 艺术风格列表 | None | 选择艺术流派 | 应用特定的艺术流派风格 | 选择"印象派"会添加印象派风格 |
| 电影风格 | movies_style | 电影风格列表 | None | 选择电影的视觉风格 | 应用电影的视觉美学风格 | 选择"赛博朋克"会添加科幻电影风格 |
| 动漫风格 | Anime_style | 动漫风格列表 | None | 选择动漫绘画风格 | 应用日式动漫的绘画风格 | 选择"宫崎骏"会添加吉卜力风格 |
| 情绪氛围 | mood_style | 情绪列表 | None | 选择图片的情绪氛围 | 控制图像的整体情绪表达 | 选择"神秘"会让图片更有神秘感 |
| 数字艺术形式 | digital_artform_style | 数字艺术列表 | None | 选择数字艺术类型 | 指定数字艺术的表现形式 | 选择"3D渲染"会生成3D风格图像 |
3.8 BRIA RMBG 节点 - 智能背景移除器
这个节点就像一个超级精准的橡皮擦,能自动识别并去除图片背景,比手动抠图快100倍。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型版本 | model_version | 1.4/2.0 | 2.0 | 选择抠图引擎的版本 | 选择BRIA RMBG模型的版本 | 2.0版本更精准,能处理复杂背景 |
| 输入图片 | image | 图片输入 | 必需 | 要去除背景的图片 | 需要进行背景移除的源图像 | 上传一张人物照片,自动去除背景 |
3.9 CLIPSeg 节点 - 智能分割器
这个节点就像有个能听懂人话的魔法剪刀,你说要剪什么,它就能精准地把那部分剪出来。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入图片 | image | 图片输入 | 必需 | 要分割的图片 | 需要进行语义分割的源图像 | 上传一张风景照,准备分割天空部分 |
| 分割描述 | text | 文本输入 | "天空" | 用文字描述要分割的部分 | 描述要分割的目标对象的文本 | 输入"人物"就能分割出图中的人 |
| 模糊程度 | blur | 0-15 | 7 | 让分割边缘多模糊 | 对分割结果进行高斯模糊的程度 | 设置0边缘很锐利,设置10边缘很柔和 |
| 阈值 | threshold | 0-1 | 0.4 | 设置分割的敏感度 | 分割置信度的阈值设置 | 0.2很敏感会分割更多,0.8很严格 |
| 膨胀因子 | dilation_factor | 0-10 | 4 | 让分割区域扩大多少 | 对分割掩码进行膨胀操作的程度 | 设置0不扩大,设置8会明显扩大区域 |
3.10 Combine Seg Masks 节点 - 分割遮罩合并器
这个节点就像胶水,能把两个分割出来的区域粘合在一起。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 遮罩1 | mask1 | 遮罩输入 | 必需 | 第一个要合并的区域 | 第一个输入的分割遮罩 | 连接天空的分割遮罩 |
| 遮罩2 | mask2 | 遮罩输入 | 必需 | 第二个要合并的区域 | 第二个输入的分割遮罩 | 连接云朵的分割遮罩 |
3.11 Convert Raster to Vector 节点 - 图片转矢量图
这个节点就像把普通照片变成可以无限放大的魔法图片,放大多少倍都不会模糊。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入图片 | image | 图片输入 | 必需 | 要转换的普通图片 | 需要矢量化的栅格图像 | 上传一个logo图片准备转换 |
| 颜色模式 | colormode | color/binary | color | 保留颜色还是变黑白 | 矢量化时的颜色处理模式 | color保留彩色,binary变成黑白 |
| 转换模式 | mode | spline/polygon | spline | 用曲线还是直线来画 | 矢量化的路径生成模式 | spline用曲线更平滑,polygon用直线 |
| 噪点过滤 | filter_speckle | 0-20 | 4 | 去除多少小噪点 | 过滤小噪点的强度设置 | 设置高一点能去除更多小杂点 |
| 颜色精度 | color_precision | 1-16 | 8 | 保留多少种颜色 | 颜色量化的精度级别 | 设置16保留更多颜色细节 |
| 角度阈值 | corner_threshold | 0-180 | 80 | 多尖的角才算角 | 检测角点的角度阈值 | 设置小一点能检测更多细节角度 |
| 长度阈值 | length_threshold | 0.5-10.0 | 2.0 | 多短的线段会被忽略 | 路径简化的长度阈值 | 设置大一点会简化更多细节 |
| 最大迭代次数 | max_iterations | 1-50 | 15 | 最多优化多少次 | 路径优化的最大迭代次数 | 设置高一点质量更好但更慢 |
| 拼接阈值 | splice_threshold | 0-180 | 45 | 多弯的曲线会被拼接 | 曲线拼接的角度阈值 | 设置小一点会保留更多曲线细节 |
| 路径精度 | path_precision | 1-10 | 5 | 路径坐标的精确程度 | 路径坐标的小数位精度 | 设置高一点文件更精确但更大 |
| 优化输出 | optimize | true/false | true | 是否压缩输出文件 | 是否对生成的SVG进行优化 | 开启后文件更小加载更快 |
3.12 Save SVG 节点 - SVG文件保存器
这个节点就像一个专门保存矢量图的文件管家,还能生成预览图让你看效果。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| SVG数据 | svg_strings | 列表输入 | 必需 | 要保存的矢量图数据 | 包含SVG内容的字符串列表 | 连接转换节点输出的SVG数据 |
| 文件名前缀 | filename_prefix | 文本输入 | "ComfyUI_SVG" | 给文件起个名字开头 | 保存文件时使用的文件名前缀 | 输入"my_logo",文件名就是my_logo.svg |
| 创建预览 | create_preview | true/false | true | 是否生成预览图片 | 是否为SVG文件生成预览图像 | 开启后能直接看到SVG的效果 |
| 预览宽度 | preview_width | 64-2048 | 512 | 预览图片的宽度 | 生成预览图像的像素宽度 | 设置1024生成高清预览图 |
| 预览高度 | preview_height | 64-2048 | 512 | 预览图片的高度 | 生成预览图像的像素高度 | 设置1024生成高清预览图 |
| 添加时间戳 | append_timestamp | true/false | true | 文件名是否加上时间 | 是否在文件名中添加时间戳 | 开启后避免文件名重复覆盖 |
| 自定义路径 | custom_output_path | 文本输入 | "" | 指定保存到哪个文件夹 | 自定义文件保存的目录路径 | 输入"/my/folder"保存到指定位置 |
3.13 SVG Preview 节点 - SVG预览器
这个节点就像一个SVG文件的放大镜,让你能看到矢量图的效果。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| SVG数据 | svg_strings | 列表输入 | 必需 | 要预览的矢量图数据 | 包含SVG内容的字符串列表 | 连接SVG数据查看效果 |
| 预览宽度 | width | 64-2048 | 512 | 预览图片的宽度 | 预览图像的像素宽度 | 设置800生成更大的预览 |
| 预览高度 | height | 64-2048 | 512 | 预览图片的高度 | 预览图像的像素高度 | 设置600生成更大的预览 |
3.14 FLUX Resolutions 节点 - 图片尺寸选择器
这个节点就像一个尺寸工具箱,里面有各种常用的图片尺寸,还能自定义。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 尺寸选择 | size_selected | 预设尺寸列表 | 1024x1024 | 从预设中选择图片尺寸 | 选择预定义的图像分辨率 | 选择"1920x1080"生成高清横屏图 |
| 倍数因子 | multiply_factor | 1以上整数 | 1 | 把尺寸放大多少倍 | 对选定尺寸进行倍数缩放 | 设置2会把尺寸放大一倍 |
| 手动宽度 | manual_width | 0以上整数 | 0 | 自己设定图片宽度 | 手动指定图像的像素宽度 | 输入1500设置自定义宽度 |
| 手动高度 | manual_height | 0以上整数 | 0 | 自己设定图片高度 | 手动指定图像的像素高度 | 输入900设置自定义高度 |
3.15 ComfyUI Styler 节点 - 风格样式器
这个节点就像一个巨大的风格调色板,有数百种艺术风格可以选择和混合。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 正面提示词 | text_positive | 文本输入 | "" | 你想要的内容描述 | 正向提示词,描述期望的图像内容 | 输入"美丽的风景"作为基础描述 |
| 负面提示词 | text_negative | 文本输入 | "" | 你不想要的内容 | 负向提示词,描述要避免的元素 | 输入"模糊,低质量"避免差质量 |
| 记录提示词 | log_prompt | true/false | true | 是否在控制台显示结果 | 是否在日志中记录处理过程 | 开启后能看到风格应用的过程 |
| 各种风格选项 | 动态生成 | 风格列表 | None | 从各个类别选择风格 | 从不同风格类别中选择具体风格 | 选择艺术家、情绪、相机角度等 |
3.16 Text Splitter 节点 - 文本分割器
这个节点就像一把智能剪刀,能按照你指定的符号把长文本切成小段。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文本内容 | text | 文本输入 | 必需 | 要分割的长文本 | 需要进行分割处理的源文本 | 输入"苹果,香蕉,橙子"准备分割 |
| 分割符号 | delimiter | 文本输入 | "," | 用什么符号来分割 | 用于分割文本的分隔符 | 输入","按逗号分割,输入"\n"按行分割 |
| 开始位置 | start_index | 0-1000 | 0 | 从第几个开始取 | 开始提取的索引位置 | 设置1跳过第一个,从第二个开始 |
| 跳过间隔 | skip_every | 0-10 | 0 | 每隔几个取一个 | 提取时跳过的间隔数量 | 设置1会隔一个取一个 |
| 最大数量 | max_count | 1-1000 | 10 | 最多取多少个 | 最大提取的项目数量 | 设置5最多只取前5个项目 |
3.17 Save Text 节点 - 文本保存器
这个节点就像一个文本文件管家,能把AI生成的文字保存成文件。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 文件名 | filename | 文本输入 | "info" | 给保存的文件起名字 | 保存文件时使用的文件名 | 输入"my_story"保存为my_story.txt |
| 路径 | path | 文本输入 | "" | 保存到哪个文件夹 | 文件保存的目录路径 | 输入"texts"保存到texts文件夹 |
| 文本内容 | text | 文本输入 | 必需 | 要保存的文字内容 | 需要保存到文件的文本内容 | 连接AI生成的文本内容 |
3.18 List Available Models 节点 - 可用模型列表
这个节点就像一个模型目录,能显示你可以使用的所有AI模型。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 显示Gemini模型 | display_gemini | true/false | true | 是否显示谷歌的模型 | 是否在列表中包含Gemini模型 | 开启后能看到所有可用的Gemini模型 |
| 显示OpenAI模型 | display_openai | true/false | true | 是否显示OpenAI的模型 | 是否在列表中包含OpenAI模型 | 开启后能看到所有可用的GPT模型 |
4. 使用技巧和建议
4.1 新手入门建议
- 从简单开始:先试试基本的文本对话功能,熟悉各个AI的特点
- API密钥管理:建议先申请免费的Gemini密钥开始体验
- 提示词技巧:开始时用简单明确的描述,逐渐学习更复杂的提示词
- 节点连接:按照"输入→处理→输出"的逻辑连接节点
4.2 进阶使用技巧
- 组合使用:可以用一个AI生成提示词,再用另一个AI生成图片
- 风格混合:Smart Prompt Generator能自动混合多种风格
- 批量处理:Text Splitter配合其他节点可以批量处理多个提示词
- 质量优化:使用结构化输出功能让AI按照特定格式回答
4.3 性能优化建议
- 模型选择:日常使用选择快速模型,重要任务选择高质量模型
- 参数调节:temperature低一点结果更稳定,高一点更有创意
- 本地优先:有条件的话优先使用Ollama本地模型,免费且隐私
- 缓存利用:Ollama的keep_alive参数能避免重复加载模型
5. 常见问题解答
5.1 安装和配置问题
Q: 安装后找不到节点怎么办?
A: 重启ComfyUI,确保插件文件夹在custom_nodes目录下,检查是否有错误信息。
Q: API密钥配置后还是报错?
A: 检查config.json文件是否正确生成,密钥是否有效,网络是否能访问对应服务。
Q: Ollama连接失败?
A: 确保Ollama服务正在运行,检查端口是否为11434,防火墙是否阻止。
5.2 使用问题
Q: AI回答质量不好怎么办?
A: 尝试更详细的提示词,调整temperature参数,或者换用更强的模型。
Q: 图片生成失败?
A: 检查提示词是否合适,避免敏感内容,确保API额度充足。
Q: SVG转换效果不好?
A: 调整vtracer参数,特别是color_precision和corner_threshold。
5.3 性能问题
Q: 处理速度很慢?
A: 选择更快的模型,减少max_tokens,使用本地Ollama模型。
Q: 内存占用太高?
A: 降低Ollama的keep_alive时间,关闭不用的模型。
6. 总结
这个ComfyUI-OllamaGemini插件就像给你的ComfyUI装上了一个AI大脑,让原本只能处理图片的工具变成了一个全能的AI工作站。无论你是想要智能对话、自动生成图片、专业抠图,还是创建矢量图,这个插件都能帮你轻松搞定。
记住,AI工具就像画笔,关键在于如何使用。多实践、多尝试,你会发现这个插件能大大提升你的创作效率!