ComfyUI-LLMs 插件完整使用教程
1. 插件简介
ComfyUI-LLMs 是一个超级简单的大语言模型调用插件,就像给你的ComfyUI装了一个聊天机器人的大脑。这个插件的神奇之处在于:
- 智能对话功能:就像和微信聊天一样,你可以跟各种AI模型对话
- 看图说话功能:把图片扔给AI,它能告诉你图片里都有什么
- 支持多种AI模型:就像你的手机能装不同的聊天APP一样,这个插件能接入各种AI模型
- 中英文双语界面:不管你习惯中文还是英文,都能轻松使用
插件地址:https://github.com/leoleelxh/ComfyUI-LLMs
简单来说,这个插件就是让你的ComfyUI能够"说话"和"看图",就像给它装了眼睛和嘴巴一样!
2. 如何安装
方法一:直接下载安装(推荐新手)
- 打开ComfyUI文件夹,找到
custom_nodes这个文件夹(就像手机的应用文件夹) - 在这个文件夹里右键,选择"在此处打开命令提示符"或者"在此处打开终端"
- 复制粘贴这个命令:
git clone https://github.com/leoleelxh/ComfyUI-LLMs - 等待下载完成后,进入新下载的文件夹:
cd ComfyUI-LLMs - 安装必要的工具包:
pip install -r requirements.txt - 复制配置文件模板:
cp settings.yaml.sample settings.yaml - 重启ComfyUI
方法二:ComfyUI Manager安装
- 在ComfyUI界面点击"Manager"按钮
- 搜索"ComfyUI-LLMs"
- 点击安装,等待完成后重启
3. 节点详细解析
3.1 🤖 LLMs Chat | 智能对话节点
这个节点就像一个聊天机器人,你跟它说话,它就会回答你。就像跟微信好友聊天一样简单!
3.2 LLMs Chat 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型选择 | model | 下拉菜单 | gpt-3.5-turbo | 就像选择跟哪个聊天机器人说话,不同的机器人有不同的"聪明程度" | 选择要使用的大语言模型 | 新手选gpt-3.5-turbo就够用了,想要更聪明的效果选gpt-4 |
| 系统提示词 | system_prompt | 文本框 | 空白或简单指令 | 就像给聊天机器人定一个"人设",比如让它扮演老师、翻译官等 | 设置模型的行为和角色 | 输入"你是一个耐心的老师",它就会用老师的语气回答你 |
| 用户消息 | user_message | 文本框 | 你想问的问题 | 就是你想跟机器人说的话,问的问题 | 用户输入的对话内容 | 比如输入"请帮我写一首关于春天的诗" |
| 温度 | temperature | 0.0-2.0 | 0.7 | 就像调节聊天机器人的"创意度",数字越大越有创意但也越"胡说八道" | 控制输出的随机性和创造性 | 写诗歌用1.0,写技术文档用0.3 |
| 最大长度 | max_tokens | 1-4096 | 1000 | 就像限制聊天机器人一次最多能说多少个字 | 限制生成文本的最大长度 | 写短句子用100,写长文章用2000 |
| 历史对话 | conversation_history | 文本框 | 空白 | 就像聊天记录,让机器人记住你们之前说过什么 | 保存对话上下文 | 可以把之前的对话复制粘贴进去 |
3.3 🎯 LLMs Vision | 图像理解节点
这个节点就像一个会看图的聊天机器人,你给它一张图片,它就能告诉你图片里有什么。就像有个朋友帮你"看图说话"!
3.4 LLMs Vision 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 视觉模型 | vision_model | 下拉菜单 | gpt-4-vision-preview | 就像选择哪个"看图高手"来帮你分析图片 | 选择要使用的视觉语言模型 | 一般照片用gpt-4-vision,中文内容用glm-4v |
| 图像输入 | image | 图片接口 | 连接图片节点 | 就像把要分析的照片递给机器人 | 输入要分析的图像 | 从LoadImage节点连线过来 |
| 提示词 | prompt | 文本框 | "描述这张图片" | 就像告诉机器人你想让它怎么看这张图 | 指导模型如何分析图像 | "详细描述图片内容"、"这张图片的主题是什么" |
| 详细程度 | detail_level | low/high | high | 就像调节"看图的仔细程度",选high看得更仔细 | 控制图像分析的详细程度 | 要简单描述选low,要详细分析选high |
| 最大长度 | max_tokens | 1-4096 | 500 | 限制机器人描述图片时最多能说多少个字 | 限制生成描述的最大长度 | 简单描述用300,详细分析用1000 |
| 温度 | temperature | 0.0-2.0 | 0.5 | 调节描述的"创意程度",数字越小越准确,越大越有想象力 | 控制输出的随机性 | 要准确描述用0.3,要有创意用0.8 |
| 语言 | language | 中文/英文 | 中文 | 选择你想要机器人用哪种语言回答你 | 设置输出语言 | 中国用户建议选中文 |
3.5 配置文件参数详解
插件还有一个配置文件settings.yaml,就像手机的设置界面,需要配置各种账号和密钥。
3.6 OpenAI兼容接口配置参数
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 接口地址 | api_base | URL地址 | 官方地址 | 就像填写聊天机器人的"家庭住址",告诉插件去哪里找它 | API服务器的基础URL | 用官方服务填"https://api.openai.com/v1" |
| 密钥 | api_key | 字符串 | 你的密钥 | 就像门禁卡,证明你有权限使用这个AI服务 | 访问API的认证密钥 | 从OpenAI官网申请的密钥 |
| 组织ID | organisation | 字符串 | NONE | 就像公司部门代码,一般个人用户不需要填 | 组织标识符 | 个人用户保持"NONE"即可 |
| 模型列表 | model | 列表 | 默认模型 | 就像列出这个服务商有哪些聊天机器人可以选择 | 可用的模型列表 | 根据你的账号权限添加可用模型 |
3.7 视觉模型配置参数
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| OpenAI密钥 | api_key | 字符串 | 你的OpenAI密钥 | 就像OpenAI看图机器人的通行证 | OpenAI视觉模型的API密钥 | 从OpenAI官网申请的密钥 |
| 智谱密钥 | api_key | 字符串 | 你的智谱密钥 | 就像智谱看图机器人的通行证 | 智谱GLM-4V的API密钥 | 从智谱官网申请的密钥 |
| 阿里密钥 | api_key | 字符串 | 你的阿里密钥 | 就像阿里通义千问看图机器人的通行证 | 阿里云视觉模型的API密钥 | 从阿里云官网申请的密钥 |
| 谷歌密钥 | api_key | 字符串 | 你的谷歌密钥 | 就像谷歌看图机器人的通行证 | Google Gemini的API密钥 | 从Google官网申请的密钥 |
| 模型列表 | model_list | 列表 | 默认模型 | 列出每个服务商有哪些看图机器人可以选择 | 每个服务商的可用视觉模型列表 | 根据服务商提供的模型列表填写 |
3.8 提示词模板配置参数
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 系统提示词 | system | 文本 | 自定义 | 就像给机器人定一个"基本人设",它会按照这个人设来回答 | 系统级别的提示词模板 | "你是一个专业的图像分析师" |
| 前缀提示词 | prefix | 文本 | 自定义 | 就像在你的问题前面自动加上一段话 | 添加到用户输入前的提示词 | "请仔细分析以下内容:" |
| 后缀提示词 | suffix | 文本 | 自定义 | 就像在你的问题后面自动加上一段话 | 添加到用户输入后的提示词 | "请用中文回答" |
4. 使用技巧和建议
4.1 新手入门建议
- 从简单开始:先用LLMs Chat节点试试基本对话,熟悉后再使用Vision节点
- 模型选择:新手建议用gpt-3.5-turbo,成本低、速度快、效果好
- 参数调节:温度参数建议从0.7开始,觉得回答太死板就调高,太随意就调低
4.2 提高使用效果的小窍门
- 明确提示词:就像跟人说话一样,说得越清楚,回答越准确
- 控制长度:不要让max_tokens设置得太小,否则回答会被截断
- 保存对话:重要的对话记录可以复制到conversation_history里,让AI记住上下文
4.3 图像分析优化建议
- 图片质量:清晰的图片能得到更准确的分析
- 具体提示:不要只说"描述图片",而是说"详细描述图片中的人物、物品和场景"
- 语言设置:中文用户建议选择支持中文的模型,效果更好
5. 常见问题解答
Q1: 插件安装后找不到节点?
答:重启ComfyUI,然后在节点列表里搜索"LLMs"或者"🤖"、"🎯"这些图标。
Q2: 提示API密钥错误?
答:检查settings.yaml文件中的api_key是否正确填写,确保从官方渠道申请的密钥有效。
Q3: AI回答很慢或者不回答?
答:可能是网络问题或者API服务器繁忙,建议检查网络连接,或者换个时间段试试。
Q4: 图片分析结果不准确?
答:尝试使用更清晰的图片,或者更具体的提示词,比如"详细描述图片中的所有物品"。
Q5: 想要更便宜的方案?
答:可以使用国内的AI服务,比如智谱GLM或者阿里通义千问,通常比OpenAI便宜。
6. 进阶玩法和创意应用
6.1 工作流程自动化
- 批量图片分析:连接多个图片输入,自动分析一堆图片
- 内容生成流水线:Chat节点生成创意 → 传给图像生成节点 → Vision节点验证结果
6.2 创意应用场景
- 图片故事生成:Vision节点分析图片 → Chat节点编写故事
- 多语言翻译:Chat节点翻译文本内容
- 创意写作助手:用不同的system_prompt让AI扮演不同角色
6.3 与其他节点配合
- 图片处理链:LoadImage → Vision分析 → Chat生成描述 → 保存文本
- 智能工作流:根据Vision的分析结果,自动选择不同的后续处理节点
这个插件的强大之处在于它的简单性和灵活性,就像给ComfyUI装上了大脑,让原本只能处理图像的工具,现在能够"思考"和"交流"了。无论你是新手还是高手,都能从这个插件中找到适合自己的使用方法!