【版权严正声明】
本文系作者 [编程界的小学生] 原创,并拥有完整、独立的著作权。
未经本人 书面授权 ,任何单位、平台或个人, 严禁 以任何形式(包括但不限于转载、复制、摘编、修改、链接、转贴、建立镜像等)使用本文的全部或部分内容。
任何无视本声明的侵权行为,本人将依据《中华人民共和国著作权法》等相关法律法规,采取一切必要的法律手段,追究其侵权责任,要求其 立即停止侵权、赔礼道歉、消除影响,并赔偿因此造成的一切经济损失及维权成本(包括但不限于律师费、诉讼费、公证费等)。
侵权必究,切勿以身试法!
1. 插件简介
插件地址: https://github.com/heshengtao/comfyui_LLM_party
这个插件就像一个超级强大的"AI聚会平台"!它能让你在ComfyUI中使用各种大语言模型(就像ChatGPT那样的AI),并且可以让这些AI互相配合工作。简单来说:
你可以在ComfyUI里直接和AI聊天
可以让AI帮你生成图片的提示词
可以让多个AI一起工作,就像开会讨论问题一样
支持本地AI模型和在线AI服务
主要功能:
能带来什么效果:
让ComfyUI变成一个智能助手平台
自动生成高质量的AI绘画提示词
创建专业的AI客服系统
构建个人知识管理系统
实现复杂的AI工作流程
2. 如何安装
方法一:通过ComfyUI管理器安装(推荐)
打开ComfyUI
点击"Manager"按钮
搜索"comfyui_LLM_party"
点击安装
方法二:手动安装
打开ComfyUI的安装文件夹
进入custom_nodes文件夹
在这里打开命令行,输入:
git clone https://github.com/heshengtao/comfyui_LLM_party.git
cd comfyui_LLM_party
pip install -r requirements.txt
重启ComfyUI
配置说明:
需要配置API密钥才能使用在线AI服务
可以在config.ini文件中配置各种参数
支持中文和英文界面
3. 节点详细解析
3.51 listen_audio(监听音频)节点
这个节点是干嘛的? 这是"语音录制器",可以通过按键控制录音,实现语音输入功能。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
press_key | press_key | shift/space/ctrl/alt/tab | shift | 录音触发按键 | 控制录音开始和结束的按键 | shift键按下录音,松开结束 |
3.52 openai_whisper(OpenAI语音识别)节点
这个节点是干嘛的? 这是"语音转文字器",使用OpenAI的Whisper模型将语音转换为文字。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音识别 | 节点启用开关 | false时不进行语音识别 |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要识别的音频文件路径 | "./audio/speech.wav" |
base_url | base_url | 文本 | - | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | - | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
audio | audio | AUDIO | - | 音频数据 | 音频数据对象 | 连接音频录制节点 |
3.53 html2img_function(HTML转图片)节点
这个节点是干嘛的? 这是"网页截图器",可以将HTML代码转换为图片,用于生成网页截图或HTML渲染图像。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
html_str | html_str | STRING | - | HTML代码 | 要转换的HTML字符串 | 连接HTML生成节点的输出 |
width | width | 100-5000 | 800 | 图片宽度 | 生成图片的宽度像素 | 800像素适合大部分用途 |
height | height | 100-5000 | 600 | 图片高度 | 生成图片的高度像素 | 600像素适合大部分用途 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.54 got_ocr(GOT-OCR2图像文字识别)节点
这个节点是干嘛的? 这是"图像文字识别器",使用GOT-OCR2模型从图片中识别和提取文字内容。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
model_name_or_path | model_name_or_path | 文本 | - | 模型路径 | GOT-OCR2模型的路径或名称 | "stepfun-ai/GOT-OCR2_0" |
device | device | auto/cuda/cpu/mps | auto | 运行设备 | 模型运行的硬件设备 | auto自动选择最佳设备 |
ocr_type | ocr_type | ocr/format | format | 识别类型 | OCR识别的输出格式 | format保持原格式,ocr纯文本 |
image | image | IMAGE | - | 输入图片 | 要识别文字的图片 | 连接图片输入节点 |
is_enable | is_enable | true/false | true | 是否启用OCR | 节点启用开关 | false时不进行识别 |
ocr_box | ocr_box | 文本 | - | 识别区域 | 指定识别的区域坐标 | 可选,格式如"[x1,y1,x2,y2]" |
ocr_color | ocr_color | 文本 | - | 识别颜色 | 指定识别的文字颜色 | 可选,如"red"、"blue" |
multi_crop | multi_crop | true/false | false | 多区域裁剪 | 是否对图片进行多区域识别 | true时提高识别准确率 |
render | render | true/false | false | 渲染输出 | 是否生成HTML渲染结果 | true时生成可视化结果 |
out_dir_path | out_dir_path | 文本 | ./output | 输出目录 | 结果文件的保存目录 | 指定输出文件保存位置 |
dtype | dtype | float32/float16/bfloat16/int8/int4 | bfloat16 | 数据类型 | 模型运行的数据精度 | bfloat16平衡性能和精度 |
3.55 openai_dall_e(DALL-E文生图)节点
这个节点是干嘛的? 这是"AI画家",使用OpenAI的DALL-E模型根据文字描述生成图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用图片生成 | 节点启用开关 | false时不生成图片 |
prompt | prompt | 文本 | - | 图片描述 | 用于生成图片的文字描述 | "一只可爱的小猫在花园里玩耍" |
image_size | image_size | 1024x1024/1792x1024/1024x1792 | 1024x1024 | 图片尺寸 | 生成图片的分辨率 | 1024x1024是正方形 |
image_quality | image_quality | standard/hd | hd | 图片质量 | 生成图片的质量等级 | hd质量更高但更贵 |
style | style | vivid/natural | natural | 图片风格 | 生成图片的艺术风格 | vivid更鲜艳,natural更自然 |
base_url | base_url | 文本 | https://api.openai.com/v1/ | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | sk-XXXXX | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
这个节点是干嘛的? 这是"AI画家工具版",让其他AI可以调用DALL-E生成图片的工具接口。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法生成图片 |
image_size | image_size | 1024x1024/1792x1024/1024x1792 | 1024x1024 | 图片尺寸 | 生成图片的分辨率 | 1024x1024是正方形 |
image_quality | image_quality | standard/hd | hd | 图片质量 | 生成图片的质量等级 | hd质量更高但更贵 |
style | style | vivid/natural | natural | 图片风格 | 生成图片的艺术风格 | vivid更鲜艳,natural更自然 |
base_url | base_url | 文本 | https://api.openai.com/v1/ | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | sk-XXXXX | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
这个节点是干嘛的? 这是"网络图片获取器",可以从网络URL下载图片并在前端显示。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法获取网络图片 |
这个节点是干嘛的? 这是"本地图片显示器",可以将本地图片路径转换为可显示的图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法显示本地图片 |
节点统计更新:
本插件包含 150+个节点
本教程已解析了 58个核心节点
还有 90+个专业节点等待探索
已完成节点解析(新增8个):
listen_audio(监听音频)- 语音录制器
openai_whisper(OpenAI语音识别)- 语音转文字器
html2img_function(HTML转图片)- 网页截图器
got_ocr(GOT-OCR2图像文字识别)- 图像文字识别器
openai_dall_e(DALL-E文生图)- AI画家
dall_e_tool(DALL-E文生图工具)- AI画家工具版
url2img_tool(URL转图片工具)- 网络图片获取器
path2img_tool(路径转图片工具)- 本地图片显示器
3.59 svg2img_function(SVG转图片)节点
这个节点是干嘛的? 这是"矢量图转换器",可以将SVG矢量图代码转换为PNG图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
svg_str | svg_str | STRING | - | SVG代码 | 要转换的SVG矢量图代码 | 连接SVG生成节点的输出 |
width | width | 100-5000 | 800 | 图片宽度 | 生成图片的宽度像素 | 800像素适合大部分用途 |
height | height | 100-5000 | 600 | 图片高度 | 生成图片的高度像素 | 600像素适合大部分用途 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.60 svg2html(SVG转HTML)节点
这个节点是干嘛的? 这是"SVG包装器",将SVG代码包装成完整的HTML页面,便于显示和进一步处理。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
svg_code | svg_code | STRING | - | SVG代码 | 要包装的SVG矢量图代码 | 连接SVG生成节点的输出 |
3.61 graph_md_to_html(思维导图Markdown转HTML)节点
这个节点是干嘛的? 这是"流程图生成器",可以将Mermaid格式的流程图代码转换为可视化的HTML页面。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
graph_definition | graph_definition | STRING | - | 流程图定义 | Mermaid格式的流程图代码 | 连接流程图生成节点的输出 |
mode | mode | dark/light/dtransparent | dark | 显示模式 | 流程图的主题样式 | dark黑色主题,light白色主题 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
节点统计更新:
本插件包含 150+个节点
本教程已解析了 61个核心节点
还有 90+个专业节点等待探索
已完成节点解析(新增3个):
svg2img_function(SVG转图片)- 矢量图转换器
svg2html(SVG转HTML)- SVG包装器
graph_md_to_html(思维导图Markdown转HTML)- 流程图生成器
由于插件包含150+个节点,完整解析所有节点需要大量篇幅。本教程已经详细解析了94个最核心和常用的节点,涵盖了:
3.74 WeChat_Official(微信公众号)节点
这个节点是干嘛的? 这是"微信公众号管理器",可以通过微信公众号API发送消息和管理公众号内容。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
app_id | app_id | 文本 | - | 应用ID | 微信公众号的应用ID | 从微信公众平台获得 |
app_secret | app_secret | 文本 | - | 应用密钥 | 微信公众号的应用密钥 | 从微信公众平台获得 |
message | message | STRING | - | 要发送的消息 | 发送给用户的消息内容 | 连接LLM节点的输出 |
user_openid | user_openid | 文本 | - | 用户OpenID | 目标用户的唯一标识 | 从微信用户交互中获得 |
is_enable | is_enable | true/false | true | 是否启用发送 | 节点启用开关 | false时不发送消息 |
3.75 SQL(数据库操作)节点
这个节点是干嘛的? 这是"数据库管理器",可以执行SQL查询和操作,让AI能够读写数据库。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
connection_string | connection_string | 文本 | - | 数据库连接字符串 | 数据库连接配置信息 | "sqlite:///database.db" |
sql_query | sql_query | 文本 | - | SQL查询语句 | 要执行的SQL命令 | "SELECT * FROM users" |
operation_type | operation_type | SELECT/INSERT/UPDATE/DELETE | SELECT | 操作类型 | SQL操作的类型 | SELECT查询数据 |
is_enable | is_enable | true/false | true | 是否启用数据库操作 | 工具启用开关 | false时不执行SQL |
3.76 image_hosting(图床上传)节点
这个节点是干嘛的? 这是"图片上传器",可以将图片上传到各种图床服务,获得网络链接。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
image | image | IMAGE | - | 要上传的图片 | 输入的图像数据 | 连接图片生成节点 |
hosting_service | hosting_service | imgbb/imgur/sm.ms | imgbb | 图床服务 | 选择的图床服务商 | imgbb免费且稳定 |
api_key | api_key | 文本 | - | 图床API密钥 | 图床服务的访问密钥 | 从对应图床服务获得 |
is_enable | is_enable | true/false | true | 是否启用上传 | 节点启用开关 | false时不上传图片 |
3.77 sleep(延时等待)节点
这个节点是干嘛的? 这是"时间暂停器",可以让工作流暂停指定时间,用于控制执行节奏。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
duration | duration | 0.1-3600 | 1.0 | 等待时长 | 暂停的秒数 | 1.0表示等待1秒 |
is_enable | is_enable | true/false | true | 是否启用等待 | 节点启用开关 | false时不等待直接继续 |
3.78 interrupt(中断执行)节点
这个节点是干嘛的? 这是"紧急停止器",可以根据条件中断工作流的执行,用于错误处理和流程控制。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
condition | condition | STRING | - | 中断条件 | 触发中断的条件表达式 | 连接逻辑判断节点 |
message | message | 文本 | "Workflow interrupted" | 中断消息 | 中断时显示的消息 | "检测到错误,停止执行" |
is_enable | is_enable | true/false | true | 是否启用中断 | 节点启用开关 | false时不检查中断条件 |
3.79 switcher(开关切换)节点
这个节点是干嘛的? 这是"智能开关",可以根据条件选择不同的执行路径,实现条件分支。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
condition | condition | STRING | - | 切换条件 | 用于判断的条件值 | 连接条件判断节点 |
true_output | true_output | STRING | - | 条件为真时的输出 | 条件成立时的输出内容 | "执行路径A" |
false_output | false_output | STRING | - | 条件为假时的输出 | 条件不成立时的输出内容 | "执行路径B" |
is_enable | is_enable | true/false | true | 是否启用开关 | 节点启用开关 | false时直接输出默认值 |
3.80 miniparty(迷你派对)节点
这个节点是干嘛的? 这是"轻量级AI助手",提供简化的LLM功能,适合快速测试和简单对话。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
prompt | prompt | 文本 | "你好" | 用户问题 | 发送给AI的提示词 | "帮我写一首诗" |
model_type | model_type | simple/advanced | simple | 模型类型 | AI模型的复杂程度 | simple适合快速响应 |
max_tokens | max_tokens | 50-1000 | 200 | 最大回答长度 | 输出文本的最大长度 | 200字符适合简短回答 |
is_enable | is_enable | true/false | true | 是否启用助手 | 节点启用开关 | false时不调用AI |
节点统计更新:
本插件包含 150+个节点
本教程已解析了 87个核心节点
还有 60+个专业节点等待探索
已完成节点解析(新增7个):
easyocr_function(EasyOCR文字识别)- 简易文字识别器
speed_change(视频变速)- 视频调速器
srt2txt(字幕转文本)- 字幕提取器
text2json(文本转JSON)- 结构化转换器
json_extractor(JSON提取器)- 数据提取器
json_parser(JSON解析器)- JSON分析器
custom_format(自定义格式)- 格式定制器
3.88 file_exist(文件存在检查)节点
这个节点是干嘛的? 这是"文件检测器",可以检查指定文件或文件夹是否存在。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
file_path | file_path | 文本 | - | 文件路径 | 要检查的文件或文件夹路径 | "./data/config.json" |
is_enable | is_enable | true/false | true | 是否启用检查 | 节点启用开关 | false时返回默认值 |
3.89 folder_clear(清空文件夹)节点
这个节点是干嘛的? 这是"文件夹清理器",可以清空指定文件夹中的所有文件。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
folder_path | folder_path | 文本 | - | 文件夹路径 | 要清空的文件夹路径 | "./temp/" |
keep_folder | keep_folder | true/false | true | 是否保留文件夹 | 清空后是否保留空文件夹 | true时只删除文件 |
is_enable | is_enable | true/false | true | 是否启用清空 | 节点启用开关 | false时不执行清空 |
3.90 file_online_storage(在线文件存储)节点
这个节点是干嘛的? 这是"云存储上传器",可以将文件上传到各种云存储服务。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
file_path | file_path | 文本 | - | 本地文件路径 | 要上传的文件路径 | "./document.pdf" |
storage_service | storage_service | dropbox/googledrive/onedrive | dropbox | 存储服务 | 选择的云存储服务 | dropbox简单易用 |
api_key | api_key | 文本 | - | API密钥 | 云存储服务的访问密钥 | 从对应服务获得 |
remote_path | remote_path | 文本 | "/" | 远程路径 | 云端存储的目录路径 | "/documents/" |
is_enable | is_enable | true/false | true | 是否启用上传 | 节点启用开关 | false时不上传文件 |
3.91 md2excel(Markdown转Excel)节点
这个节点是干嘛的? 这是"表格转换器",可以将Markdown格式的表格转换为Excel文件。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
markdown_text | markdown_text | STRING | - | Markdown文本 | 包含表格的Markdown文本 | 连接LLM生成的表格 |
output_path | output_path | 文本 | "./output.xlsx" | 输出Excel路径 | Excel文件的保存路径 | "./data/report.xlsx" |
sheet_name | sheet_name | 文本 | "Sheet1" | 工作表名称 | Excel中的工作表名称 | "数据报告" |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.92 mermaid2img(流程图转图片)节点
这个节点是干嘛的? 这是"流程图生成器",可以将Mermaid代码转换为可视化的流程图图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
mermaid_code | mermaid_code | STRING | - | Mermaid代码 | 流程图的Mermaid格式代码 | 连接LLM生成的流程图 |
output_format | output_format | png/svg/pdf | png | 输出格式 | 生成图片的文件格式 | png通用性最好 |
width | width | 800-3000 | 1200 | 图片宽度 | 生成图片的宽度像素 | 1200像素适合大部分用途 |
height | height | 600-2000 | 800 | 图片高度 | 生成图片的高度像素 | 800像素适合大部分用途 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不生成图片 |
3.93 open_web(打开网页)节点
这个节点是干嘛的? 这是"网页启动器",可以在默认浏览器中打开指定的网页地址。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
url | url | 文本 | - | 网页地址 | 要打开的网页URL | "https://www.example.com" |
new_tab | new_tab | true/false | true | 是否新标签页打开 | 是否在新标签页中打开 | true时不影响当前页面 |
is_enable | is_enable | true/false | true | 是否启用打开 | 节点启用开关 | false时不打开网页 |
3.94 red_book_text_persona(小红书文案面具)节点
这个节点是干嘛的? 这是"小红书文案生成器",专门用于生成符合小红书风格的文案内容。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
topic | topic | 文本 | - | 主题内容 | 要创作文案的主题 | "美妆教程"、"穿搭分享" |
style | style | 甜美/清新/酷酷/温暖 | 甜美 | 文案风格 | 小红书文案的表达风格 | 甜美风适合大部分内容 |
length | length | 短/中/长 | 中 | 文案长度 | 生成文案的篇幅长度 | 中等长度适合阅读 |
include_emoji | include_emoji | true/false | true | 是否包含表情 | 是否在文案中添加emoji | true时更有趣味性 |
is_enable | is_enable | true/false | true | 是否启用生成 | 节点启用开关 | false时不生成文案 |
节点统计更新:
本插件包含 150+个节点
本教程已解析了 94个核心节点
还有 55+个专业节点等待探索
已完成节点解析(新增7个):
file_exist(文件存在检查)- 文件检测器
folder_clear(清空文件夹)- 文件夹清理器
file_online_storage(在线文件存储)- 云存储上传器
md2excel(Markdown转Excel)- 表格转换器
mermaid2img(流程图转图片)- 流程图生成器
open_web(打开网页)- 网页启动器
red_book_text_persona(小红书文案面具)- 小红书文案生成器
已完成节点解析(新增7个):
WeChat_Official(微信公众号)- 微信公众号管理器
SQL(数据库操作)- 数据库管理器
image_hosting(图床上传)- 图片上传器
sleep(延时等待)- 时间暂停器
interrupt(中断执行)- 紧急停止器
switcher(开关切换)- 智能开关
miniparty(迷你派对)- 轻量级AI助手
3.81 easyocr_function(EasyOCR文字识别)节点
这个节点是干嘛的? 这是"简易文字识别器",使用EasyOCR库从图片中识别文字,支持多种语言。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
image | image | IMAGE | - | 要识别的图片 | 输入的图像数据 | 连接图片输入节点 |
languages | languages | ['ch_sim','en'] | ['ch_sim','en'] | 识别语言列表 | OCR支持的语言代码列表 | ch_sim是简体中文,en是英文 |
gpu | gpu | true/false | true | 是否使用GPU | 是否启用GPU加速 | true时识别速度更快 |
is_enable | is_enable | true/false | true | 是否启用识别 | 节点启用开关 | false时不进行识别 |
3.82 speed_change(视频变速)节点
这个节点是干嘛的? 这是"视频调速器",可以改变视频的播放速度,制作快进或慢放效果。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
video_path | video_path | 文本 | - | 视频文件路径 | 要处理的视频文件路径 | "./video/input.mp4" |
speed_factor | speed_factor | 0.1-10.0 | 1.0 | 速度倍数 | 视频播放速度的倍数 | 2.0是2倍速,0.5是半速 |
output_path | output_path | 文本 | - | 输出文件路径 | 处理后视频的保存路径 | "./video/output.mp4" |
is_enable | is_enable | true/false | true | 是否启用变速 | 节点启用开关 | false时不处理视频 |
3.83 srt2txt(字幕转文本)节点
这个节点是干嘛的? 这是"字幕提取器",可以从SRT字幕文件中提取纯文本内容,去除时间戳。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
srt_path | srt_path | 文本 | - | SRT文件路径 | 字幕文件的完整路径 | "./subtitles/movie.srt" |
remove_timestamps | remove_timestamps | true/false | true | 是否移除时间戳 | 是否去除字幕中的时间信息 | true时只保留文本内容 |
merge_lines | merge_lines | true/false | false | 是否合并行 | 是否将多行字幕合并为段落 | true时合并成连续文本 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.84 text2json(文本转JSON)节点
这个节点是干嘛的? 这是"结构化转换器",可以将普通文本转换为JSON格式,便于数据处理。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
text | text | STRING | - | 要转换的文本 | 输入的文本内容 | 连接文本处理节点 |
structure_template | structure_template | JSON | {} | 结构模板 | JSON结构的模板定义 | {"title":"","content":""} |
auto_detect | auto_detect | true/false | true | 是否自动检测结构 | 自动识别文本结构 | true时智能分析文本格式 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
这个节点是干嘛的? 这是"数据提取器",可以从JSON数据中提取指定字段的值。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
json_data | json_data | STRING | - | JSON数据 | 要提取数据的JSON字符串 | 连接API或文件加载器 |
extract_path | extract_path | 文本 | - | 提取路径 | JSON中的数据路径 | "data.items[0].name" |
default_value | default_value | 文本 | "" | 默认值 | 提取失败时的默认返回值 | "未找到数据" |
is_enable | is_enable | true/false | true | 是否启用提取 | 节点启用开关 | false时返回原始数据 |
3.86 json_parser(JSON解析器)节点
这个节点是干嘛的? 这是"JSON分析器",可以解析和验证JSON数据的格式,检查数据完整性。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
json_string | json_string | STRING | - | JSON字符串 | 要解析的JSON格式文本 | 连接JSON生成节点 |
validate_schema | validate_schema | true/false | false | 是否验证格式 | 是否检查JSON格式正确性 | true时验证数据结构 |
pretty_print | pretty_print | true/false | true | 是否美化输出 | 是否格式化JSON输出 | true时输出易读格式 |
is_enable | is_enable | true/false | true | 是否启用解析 | 节点启用开关 | false时直接返回原文本 |
这个节点是干嘛的? 这是"格式定制器",可以按照自定义模板格式化文本输出。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
input_text | input_text | STRING | - | 输入文本 | 要格式化的原始文本 | 连接LLM节点输出 |
format_template | format_template | 文本 | "{text}" | 格式模板 | 文本格式化的模板 | "标题:{title}\n内容:{content}" |
variables | variables | JSON | {} | 变量映射 | 模板中变量的值映射 | {"title":"文章标题"} |
is_enable | is_enable | true/false | true | 是否启用格式化 | 节点启用开关 | false时返回原始文本 |
核心功能节点(50个):
LLM对话和模型加载
工具调用和组合
搜索和信息获取
文件处理和数据管理
社交平台集成
知识库和向量搜索
工作流控制
高级专业节点(44个):
这些节点已经能够满足绝大多数用户的需求,从基础的AI对话到复杂的多模态处理都有覆盖。剩余的55+个节点主要是更加专业和细分的功能,适合有特定需求的高级用户。
如需了解具体节点的详细用法,请参考:
3.62 gpt_sovits(GPT-SoVITS语音克隆)节点
这个节点是干嘛的? 这是"声音克隆大师",可以克隆任何人的声音,让AI用指定的声音说话。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
text | text | 文本 | 先帝创业未半而中道崩殂... | 要合成的文字内容 | 待合成语音的文本 | 输入想要AI说的话 |
text_lang | text_lang | auto/zh/en/ja/yue/ko等 | zh | 文本语言 | 输入文本的语言类型 | zh是中文,en是英文 |
ref_audio_path | ref_audio_path | 文本 | - | 参考音频路径 | 用于克隆的音频文件路径 | "./audio/reference.wav" |
prompt_text | prompt_text | 文本 | - | 参考音频文本 | 参考音频对应的文字内容 | 参考音频说的是什么 |
prompt_lang | prompt_lang | auto/zh/en/ja/yue/ko等 | zh | 参考音频语言 | 参考音频的语言类型 | 与参考音频语言保持一致 |
text_split_method | text_split_method | cut0-cut5 | cut5 | 文本分割方法 | 长文本的分割策略 | cut5适合大部分情况 |
batch_size | batch_size | 1-10 | 1 | 批处理大小 | 同时处理的文本数量 | 1表示逐句处理 |
media_type | media_type | wav/raw/ogg/aac | wav | 音频格式 | 输出音频的文件格式 | wav质量最好 |
GPT_weights_path | GPT_weights_path | 文本 | - | GPT模型权重路径 | GPT模型文件路径 | 可选,用于自定义模型 |
Sovits_weights_path | Sovits_weights_path | 文本 | - | SoVITS模型权重路径 | SoVITS模型文件路径 | 可选,用于自定义模型 |
is_enable | is_enable | true/false | true | 是否启用语音合成 | 节点启用开关 | false时不进行合成 |
3.63 fish_whisper(Fish语音识别)节点
这个节点是干嘛的? 这是"Fish语音转文字器",使用Fish Audio的语音识别服务将语音转换为文字。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音识别 | 节点启用开关 | false时不进行识别 |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要识别的音频文件路径 | "./audio/speech.wav" |
api_key | api_key | 文本 | - | Fish Audio API密钥 | Fish Audio服务的访问密钥 | 从Fish Audio获得 |
audio | audio | AUDIO | - | 音频数据 | 音频数据对象 | 连接音频录制节点 |
3.64 fish_tts(Fish语音合成)节点
这个节点是干嘛的? 这是"Fish语音合成器",使用Fish Audio的语音合成服务将文字转换为语音。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音合成 | 节点启用开关 | false时不进行合成 |
input_string | input_string | 文本 | - | 要合成的文字 | 待合成语音的文本内容 | "你好,欢迎使用Fish TTS" |
reference_audio_path | reference_audio_path | 文本 | - | 参考音频路径 | 用于声音克隆的音频文件 | "./audio/reference.wav" |
reference_text | reference_text | 文本 | - | 参考音频文本 | 参考音频对应的文字 | 参考音频说的内容 |
reference_id | reference_id | 文本 | - | 参考音频ID | 预设的声音模型ID | 使用预设声音时填写 |
api_key | api_key | 文本 | - | Fish Audio API密钥 | Fish Audio服务的访问密钥 | 从Fish Audio获得 |
3.65 md_to_html(Markdown转HTML)节点
这个节点是干嘛的? 这是"文档转换器",可以将Markdown格式的文档转换为HTML网页格式。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
md_str | md_str | STRING | - | Markdown文本 | 要转换的Markdown格式文本 | 连接Markdown生成节点 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.66 Browser_display(浏览器显示)节点
这个节点是干嘛的? 这是"网页预览器",可以将HTML或Markdown内容在浏览器中打开显示。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
md_or_html | md_or_html | STRING | - | 文档内容 | Markdown或HTML格式的文档 | 连接文档生成节点 |
is_enable | is_enable | true/false | true | 是否启用显示 | 节点启用开关 | false时不打开浏览器 |
3.67 whisper_party(Whisper语音识别)节点
这个节点是干嘛的? 这是"本地语音识别器",使用Whisper模型在本地进行语音识别,支持多种语言。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
model_size | model_size | tiny/base/small/medium/large | base | 模型大小 | Whisper模型的规模 | base平衡速度和精度 |
language | language | auto/zh/en/ja等 | auto | 识别语言 | 语音识别的目标语言 | auto自动检测语言 |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要识别的音频文件路径 | "./audio/speech.wav" |
is_enable | is_enable | true/false | true | 是否启用识别 | 节点启用开关 | false时不进行识别 |
3.68 movie_editor(视频编辑器)节点
这个节点是干嘛的? 这是"视频处理器",可以对视频进行基本的编辑操作,如剪切、合并、格式转换等。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
video_path | video_path | 文本 | - | 视频文件路径 | 要处理的视频文件路径 | "./video/input.mp4" |
operation | operation | cut/merge/convert | cut | 操作类型 | 视频处理操作类型 | cut剪切,merge合并 |
start_time | start_time | 文本 | 00:00:00 | 开始时间 | 剪切的开始时间点 | "00:01:30"表示1分30秒 |
end_time | end_time | 文本 | 00:00:10 | 结束时间 | 剪切的结束时间点 | "00:02:00"表示2分钟 |
output_format | output_format | mp4/avi/mov | mp4 | 输出格式 | 输出视频的文件格式 | mp4兼容性最好 |
is_enable | is_enable | true/false | true | 是否启用编辑 | 节点启用开关 | false时不进行处理 |
3.69 discord_bot(Discord机器人)节点
这个节点是干嘛的? 这是"Discord聊天机器人",可以将AI接入Discord服务器,实现自动回复和互动。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
bot_token | bot_token | 文本 | - | 机器人令牌 | Discord机器人的访问令牌 | 从Discord开发者平台获得 |
channel_id | channel_id | 文本 | - | 频道ID | 要发送消息的频道ID | Discord频道的数字ID |
message | message | STRING | - | 要发送的消息 | 机器人发送的消息内容 | 连接LLM节点的输出 |
is_enable | is_enable | true/false | true | 是否启用机器人 | 节点启用开关 | false时不发送消息 |
这个节点是干嘛的? 这是"新闻订阅器",可以获取RSS源的最新内容,让AI了解最新资讯。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
rss_url | rss_url | 文本 | - | RSS源地址 | RSS订阅源的URL | "https://example.com/rss.xml" |
max_items | max_items | 1-50 | 10 | 最大条目数 | 获取的最大新闻条目数 | 10条新闻通常够用 |
is_enable | is_enable | true/false | true | 是否启用订阅 | 工具启用开关 | false时不获取RSS |
3.71 arxiv(学术论文搜索)节点
这个节点是干嘛的? 这是"学术搜索器",可以在arXiv上搜索最新的学术论文,获取科研资讯。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
query | query | 文本 | - | 搜索关键词 | 论文搜索的关键词 | "machine learning"、"AI" |
max_results | max_results | 1-100 | 10 | 最大结果数 | 返回的最大论文数量 | 10篇论文通常够用 |
sort_by | sort_by | relevance/lastUpdatedDate/submittedDate | relevance | 排序方式 | 搜索结果的排序方式 | relevance按相关性排序 |
is_enable | is_enable | true/false | true | 是否启用搜索 | 工具启用开关 | false时不搜索论文 |
3.72 browser(浏览器自动化)节点
这个节点是干嘛的? 这是"网页自动化器",可以自动控制浏览器进行网页操作,如点击、输入、截图等。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
url | url | 文本 | - | 目标网址 | 要访问的网页地址 | "https://www.example.com" |
action | action | click/input/screenshot/scroll | screenshot | 操作类型 | 要执行的浏览器操作 | screenshot截图,click点击 |
selector | selector | 文本 | - | 元素选择器 | CSS选择器或XPath | "#button1"、".class-name" |
input_text | input_text | 文本 | - | 输入文本 | 要输入的文字内容 | 用于input操作时输入文字 |
wait_time | wait_time | 1-30 | 3 | 等待时间 | 操作后的等待时间(秒) | 3秒等待页面加载 |
is_enable | is_enable | true/false | true | 是否启用自动化 | 节点启用开关 | false时不执行操作 |
3.73 mcp_cli(MCP协议客户端)节点
这个节点是干嘛的? 这是"MCP协议连接器",支持Model Context Protocol,可以连接各种MCP服务器获取外部数据。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
server_config | server_config | JSON | {} | 服务器配置 | MCP服务器的连接配置 | 包含服务器地址和认证信息 |
tool_name | tool_name | 文本 | - | 工具名称 | 要调用的MCP工具名称 | 从MCP服务器获得的工具名 |
parameters | parameters | JSON | {} | 工具参数 | 传递给MCP工具的参数 | 根据具体工具要求设置 |
is_enable | is_enable | true/false | true | 是否启用MCP | 节点启用开关 | false时不调用MCP服务 |
节点统计更新:
本插件包含 150+个节点
本教程已解析了 73个核心节点
还有 75+个专业节点等待探索
已完成节点解析(新增7个):
whisper_party(Whisper语音识别)- 本地语音识别器
movie_editor(视频编辑器)- 视频处理器
discord_bot(Discord机器人)- Discord聊天机器人
RSS(RSS订阅器)- 新闻订阅器
arxiv(学术论文搜索)- 学术搜索器
browser(浏览器自动化)- 网页自动化器
mcp_cli(MCP协议客户端)- MCP协议连接器
3.95 listen_audio(监听音频)节点
这个节点是干嘛的? 这是"语音录制器",可以通过按键控制录音,实现语音输入功能。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
press_key | press_key | shift/space/ctrl/alt/tab | shift | 录音触发按键 | 控制录音开始和结束的按键 | shift键按下录音,松开结束 |
3.96 openai_whisper(OpenAI语音识别)节点
这个节点是干嘛的? 这是"语音转文字器",使用OpenAI的Whisper模型将语音转换为文字。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音识别 | 节点启用开关 | false时不进行语音识别 |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要识别的音频文件路径 | "./audio/speech.wav" |
base_url | base_url | 文本 | - | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | - | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
audio | audio | AUDIO | - | 音频数据 | 音频数据对象 | 连接音频录制节点 |
3.97 gpt_sovits(GPT-SoVITS语音克隆)节点
这个节点是干嘛的? 这是"声音克隆大师",可以克隆任何人的声音,让AI用指定的声音说话。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
text | text | 文本 | 先帝创业未半而中道崩殂... | 要合成的文字内容 | 待合成语音的文本 | 输入想要AI说的话 |
text_lang | text_lang | auto/zh/en/ja/yue/ko等 | zh | 文本语言 | 输入文本的语言类型 | zh是中文,en是英文 |
ref_audio_path | ref_audio_path | 文本 | - | 参考音频路径 | 用于克隆的音频文件路径 | "./audio/reference.wav" |
prompt_text | prompt_text | 文本 | - | 参考音频文本 | 参考音频对应的文字内容 | 参考音频说的是什么 |
prompt_lang | prompt_lang | auto/zh/en/ja/yue/ko等 | zh | 参考音频语言 | 参考音频的语言类型 | 与参考音频语言保持一致 |
text_split_method | text_split_method | cut0-cut5 | cut5 | 文本分割方法 | 长文本的分割策略 | cut5适合大部分情况 |
batch_size | batch_size | 1-10 | 1 | 批处理大小 | 同时处理的文本数量 | 1表示逐句处理 |
media_type | media_type | wav/raw/ogg/aac | wav | 音频格式 | 输出音频的文件格式 | wav质量最好 |
GPT_weights_path | GPT_weights_path | 文本 | - | GPT模型权重路径 | GPT模型文件路径 | 可选,用于自定义模型 |
Sovits_weights_path | Sovits_weights_path | 文本 | - | SoVITS模型权重路径 | SoVITS模型文件路径 | 可选,用于自定义模型 |
is_enable | is_enable | true/false | true | 是否启用语音合成 | 节点启用开关 | false时不进行合成 |
3.98 openai_dall_e(DALL-E文生图)节点
这个节点是干嘛的? 这是"AI画家",使用OpenAI的DALL-E模型根据文字描述生成图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用图片生成 | 节点启用开关 | false时不生成图片 |
prompt | prompt | 文本 | - | 图片描述 | 用于生成图片的文字描述 | "一只可爱的小猫在花园里玩耍" |
image_size | image_size | 1024x1024/1792x1024/1024x1792 | 1024x1024 | 图片尺寸 | 生成图片的分辨率 | 1024x1024是正方形 |
image_quality | image_quality | standard/hd | hd | 图片质量 | 生成图片的质量等级 | hd质量更高但更贵 |
style | style | vivid/natural | natural | 图片风格 | 生成图片的艺术风格 | vivid更鲜艳,natural更自然 |
base_url | base_url | 文本 | https://api.openai.com/v1/ | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | sk-XXXXX | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
这个节点是干嘛的? 这是"AI画家工具版",让其他AI可以调用DALL-E生成图片的工具接口。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法生成图片 |
image_size | image_size | 1024x1024/1792x1024/1024x1792 | 1024x1024 | 图片尺寸 | 生成图片的分辨率 | 1024x1024是正方形 |
image_quality | image_quality | standard/hd | hd | 图片质量 | 生成图片的质量等级 | hd质量更高但更贵 |
style | style | vivid/natural | natural | 图片风格 | 生成图片的艺术风格 | vivid更鲜艳,natural更自然 |
base_url | base_url | 文本 | https://api.openai.com/v1/ | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | sk-XXXXX | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
这个节点是干嘛的? 这是"网络图片获取器",可以从网络URL下载图片并在前端显示。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法获取网络图片 |
3.101 got_ocr(GOT-OCR2图像文字识别)节点
这个节点是干嘛的? 这是"超强图像文字识别器",使用GOT-OCR2模型从图片中识别和提取文字内容,支持多种语言和格式。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
model_name_or_path | model_name_or_path | 文本 | - | 模型路径 | GOT-OCR2模型的路径或名称 | "stepfun-ai/GOT-OCR2_0" |
device | device | auto/cuda/cpu/mps | auto | 运行设备 | 模型运行的硬件设备 | auto自动选择最佳设备 |
ocr_type | ocr_type | ocr/format | format | 识别类型 | OCR识别的输出格式 | format保持原格式,ocr纯文本 |
image | image | IMAGE | - | 输入图片 | 要识别文字的图片 | 连接图片输入节点 |
is_enable | is_enable | true/false | true | 是否启用OCR | 节点启用开关 | false时不进行识别 |
ocr_box | ocr_box | 文本 | - | 识别区域 | 指定识别的区域坐标 | 可选,格式如"[x1,y1,x2,y2]" |
ocr_color | ocr_color | 文本 | - | 识别颜色 | 指定识别的文字颜色 | 可选,如"red"、"blue" |
multi_crop | multi_crop | true/false | false | 多区域裁剪 | 是否对图片进行多区域识别 | true时提高识别准确率 |
render | render | true/false | false | 渲染输出 | 是否生成HTML渲染结果 | true时生成可视化结果 |
out_dir_path | out_dir_path | 文本 | ./output | 输出目录 | 结果文件的保存目录 | 指定输出文件保存位置 |
dtype | dtype | float32/float16/bfloat16/int8/int4 | bfloat16 | 数据类型 | 模型运行的数据精度 | bfloat16平衡性能和精度 |
3.102 html2img_function(HTML转图片)节点
这个节点是干嘛的? 这是"网页截图器",可以将HTML代码转换为图片,用于生成网页截图或HTML渲染图像。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
html_str | html_str | STRING | - | HTML代码 | 要转换的HTML字符串 | 连接HTML生成节点的输出 |
width | width | 100-5000 | 800 | 图片宽度 | 生成图片的宽度像素 | 800像素适合大部分用途 |
height | height | 100-5000 | 600 | 图片高度 | 生成图片的高度像素 | 600像素适合大部分用途 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.103 svg2img_function(SVG转图片)节点
这个节点是干嘛的? 这是"矢量图转换器",可以将SVG矢量图代码转换为PNG图片。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
svg_str | svg_str | STRING | - | SVG代码 | 要转换的SVG矢量图代码 | 连接SVG生成节点的输出 |
width | width | 100-5000 | 800 | 图片宽度 | 生成图片的宽度像素 | 800像素适合大部分用途 |
height | height | 100-5000 | 600 | 图片高度 | 生成图片的高度像素 | 600像素适合大部分用途 |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.104 svg2html(SVG转HTML)节点
这个节点是干嘛的? 这是"SVG包装器",将SVG代码包装成完整的HTML页面,便于显示和进一步处理。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
svg_code | svg_code | STRING | - | SVG代码 | 要包装的SVG矢量图代码 | 连接SVG生成节点的输出 |
3.105 EasyOCR_advance(EasyOCR高级版)节点
这个节点是干嘛的? 这是"专业文字识别器",使用EasyOCR库进行高级文字识别,支持多种语言和详细参数调节。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
image | image | IMAGE | - | 要识别的图片 | 输入的图像数据 | 连接图片输入节点 |
gpu | gpu | true/false | true | 是否使用GPU | 是否启用GPU加速 | true时识别速度更快 |
language_name | language_name | 文本 | ch_sim,en | 识别语言列表 | OCR支持的语言代码列表 | ch_sim是简体中文,en是英文 |
decoder | decoder | greedy/beamsearch/wordbeamsearch | greedy | 解码器类型 | 文字识别的解码算法 | greedy速度快,beamsearch精度高 |
beamWidth | beamWidth | 1-20 | 5 | 束搜索宽度 | beamsearch算法的搜索宽度 | 数值越大精度越高但速度越慢 |
batch_size | batch_size | 1-10 | 1 | 批处理大小 | 同时处理的图片数量 | 1表示逐张处理 |
paragraph | paragraph | true/false | false | 段落模式 | 是否按段落组织识别结果 | true时保持文本段落结构 |
min_size | min_size | 10-100 | 20 | 最小文字尺寸 | 识别的最小文字像素大小 | 小于此尺寸的文字会被忽略 |
text_threshold | text_threshold | 0.1-1.0 | 0.7 | 文字置信度阈值 | 文字检测的置信度门槛 | 数值越高要求越严格 |
is_enable | is_enable | true/false | true | 是否启用识别 | 节点启用开关 | false时不进行识别 |
3.106 EasyOCR_choose(EasyOCR简易版)节点
这个节点是干嘛的? 这是"简易文字识别器",提供简化的EasyOCR功能,适合快速文字识别。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
image | image | IMAGE | - | 要识别的图片 | 输入的图像数据 | 连接图片输入节点 |
gpu | gpu | true/false | true | 是否使用GPU | 是否启用GPU加速 | true时识别速度更快 |
language_list | language_list | 下拉列表 | English | 识别语言选择 | 从预设语言列表中选择 | 选择图片中的主要语言 |
is_enable | is_enable | true/false | true | 是否启用识别 | 节点启用开关 | false时不进行识别 |
3.107 fish_whisper(Fish语音识别)节点
这个节点是干嘛的? 这是"Fish语音转文字器",使用Fish Audio的语音识别服务将语音转换为文字。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音识别 | 节点启用开关 | false时不进行识别 |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要识别的音频文件路径 | "./audio/speech.wav" |
api_key | api_key | 文本 | - | Fish Audio API密钥 | Fish Audio服务的访问密钥 | 从Fish Audio获得 |
audio | audio | AUDIO | - | 音频数据 | 音频数据对象 | 连接音频录制节点 |
3.108 fish_tts(Fish语音合成)节点
这个节点是干嘛的? 这是"Fish语音合成器",使用Fish Audio的语音合成服务将文字转换为语音。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用语音合成 | 节点启用开关 | false时不进行合成 |
input_string | input_string | 文本 | - | 要合成的文字 | 待合成语音的文本内容 | "你好,欢迎使用Fish TTS" |
reference_audio_path | reference_audio_path | 文本 | - | 参考音频路径 | 用于声音克隆的音频文件 | "./audio/reference.wav" |
reference_text | reference_text | 文本 | - | 参考音频文本 | 参考音频对应的文字 | 参考音频说的内容 |
reference_id | reference_id | 文本 | - | 参考音频ID | 预设的声音模型ID | 使用预设声音时填写 |
api_key | api_key | 文本 | - | Fish Audio API密钥 | Fish Audio服务的访问密钥 | 从Fish Audio获得 |
3.109 Image2Video_party(图片转视频)节点
这个节点是干嘛的? 这是"静态图片转视频器",可以将静态图片和音频合成为带字幕的视频。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
audio_path | audio_path | 文本 | - | 音频文件路径 | 背景音频的文件路径 | "./audio/background.mp3" |
image_path | image_path | 文本 | - | 图片文件路径 | 背景图片的文件路径 | "./images/background.jpg" |
subtitle | subtitle | 文本 | Example subtitle | 字幕内容 | 要显示在视频上的字幕文字 | "欢迎观看我的视频" |
subtitle_size | subtitle_size | 10-200 | 50 | 字幕大小 | 字幕文字的像素大小 | 50像素适合大部分情况 |
font_path | font_path | 文本 | - | 字体文件路径 | 字幕使用的字体文件路径 | "./fonts/arial.ttf" |
r | r | 0-255 | 255 | 字幕红色值 | 字幕颜色的红色分量 | 255是最大红色 |
g | g | 0-255 | 255 | 字幕绿色值 | 字幕颜色的绿色分量 | 255是最大绿色 |
b | b | 0-255 | 255 | 字幕蓝色值 | 字幕颜色的蓝色分量 | 255是最大蓝色 |
output_path | output_path | 文本 | - | 输出路径 | 生成视频的保存路径 | "./output/" |
is_enable | is_enable | true/false | true | 是否启用转换 | 节点启用开关 | false时不进行转换 |
3.110 Combine_Videos_party(合并视频)节点
这个节点是干嘛的? 这是"视频合并器",可以将多个视频文件按时间戳顺序合并成一个完整视频。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
input_folder | input_folder | 文本 | - | 输入文件夹路径 | 包含要合并视频的文件夹 | "./videos/input/" |
output_folder | output_folder | 文本 | - | 输出文件夹路径 | 合并后视频的保存文件夹 | "./videos/output/" |
is_enable | is_enable | true/false | true | 是否启用合并 | 节点启用开关 | false时不进行合并 |
这个节点是干嘛的? 这是"网页自动化机器人",可以自动控制浏览器执行各种任务,如点击、输入、截图、数据抓取等。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
model_name | model_name | 文本 | gpt-4o | AI模型名称 | 控制浏览器的AI模型 | "gpt-4o"智能程度高 |
provider | provider | openai/azure/anthropic | openai | AI服务提供商 | AI模型的服务商选择 | openai是OpenAI,anthropic是Claude |
base_url | base_url | 文本 | - | API基础地址 | AI服务的API地址 | 可选,用于自定义端点 |
api_key | api_key | 文本 | - | API密钥 | AI服务的访问密钥 | 从对应服务商获得 |
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法控制浏览器 |
这个节点是干嘛的? 这是"新闻订阅解析器",可以解析RSS订阅源,获取最新的新闻、博客或其他内容更新。
参数详解:
这个节点是干嘛的? 这是"RSS订阅工具版",让AI可以调用RSS解析功能,获取各种订阅源的最新内容。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法获取RSS内容 |
这个节点是干嘛的? 这是"学术论文搜索器",可以在arXiv上搜索最新的学术论文,获取科研资讯和文献信息。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
query | query | 文本 | query | 搜索关键词 | 论文搜索的查询词 | "machine learning"、"quantum physics" |
is_enable | is_enable | true/false | true | 是否启用搜索 | 工具启用开关 | false时AI无法搜索论文 |
3.115 discord_bot(Discord机器人启动器)节点
这个节点是干嘛的? 这是"Discord机器人启动器",可以创建和启动Discord聊天机器人,实现自动回复和互动功能。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
token | token | 文本 | - | Discord机器人令牌 | Discord Bot的访问令牌 | 从Discord开发者平台获得 |
function_name | function_name | JSON数组 | ["ping", "add"] | 机器人命令列表 | 机器人支持的斜杠命令 | ["help", "chat", "image"] |
is_enable | is_enable | true/false | true | 是否启用机器人 | 节点启用开关 | false时不启动机器人 |
3.116 discord_send(Discord消息发送器)节点
这个节点是干嘛的? 这是"Discord消息发送器",可以向Discord频道发送文字、图片和音频消息。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
text | text | 文本 | - | 要发送的文字 | 发送的文本消息内容 | "Hello Discord!" |
img_path | img_path | 文本 | - | 图片文件路径 | 要发送的图片文件路径 | "./images/photo.jpg" |
audio_path | audio_path | 文本 | - | 音频文件路径 | 要发送的音频文件路径 | "./audio/voice.mp3" |
is_enable | is_enable | true/false | true | 是否启用发送 | 节点启用开关 | false时不发送消息 |
3.117 send_to_wechat_official(微信公众号发送器)节点
这个节点是干嘛的? 这是"微信公众号内容发布器",可以将内容发布到微信公众号,创建草稿文章。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
appid | appid | 文本 | appid | 微信公众号应用ID | 微信公众号的AppID | 从微信公众平台获得 |
secret | secret | 文本 | secret | 微信公众号应用密钥 | 微信公众号的AppSecret | 从微信公众平台获得 |
title | title | 文本 | title | 文章标题 | 公众号文章的标题 | "今日科技新闻" |
author | author | 文本 | author | 文章作者 | 公众号文章的作者名 | "AI小助手" |
content | content | 文本 | HTML content | 文章内容 | 公众号文章的HTML内容 | 支持HTML格式的文章正文 |
is_enable | is_enable | true/false | true | 是否启用发送 | 节点启用开关 | false时不发送到公众号 |
这个节点是干嘛的? 这是"智能数据库查询器",可以用自然语言查询SQL数据库,AI会自动将自然语言转换为SQL语句执行。
参数详解:
参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|
db_connection_string | db_connection_string | 文本 | postgresql://user:password@host:port/dbname | 数据库连接字符串 | 数据库连接配置信息 | 包含用户名、密码、地址等 |
query_str | query_str | 文本 | - | 查询语句 | 自然语言查询描述 | "查找所有用户的姓名和邮箱" |
model_name | model_name | 文本 | gpt-4o-mini | AI模型名称 | 用于理解自然语言的模型 | "gpt-4o-mini"性价比高 |
base_url | base_url | 文本 | https://api.openai.com/v1/ | API基础地址 | OpenAI API的基础URL | 可选,用于自定义端点 |
api_key | api_key | 文本 | sk-XXXXX | API密钥 | OpenAI API访问密钥 | 从OpenAI获得 |
is_enable | is_enable | true/false | true | 是否启用工具 | 工具启用开关 | false时AI无法查询数据库 |
4. 使用技巧和建议
4.1 新手入门建议
从简单开始:先用API版本的LLM节点,配置OpenAI或其他在线服务
逐步添加功能:先实现基本对话,再添加工具和记忆功能
多看示例:插件提供了很多示例工作流,可以直接使用
合理设置参数:temperature控制创意度,max_length控制回答长度
4.2 高级使用技巧
多智能体协作:让多个AI分工合作,一个负责搜索,一个负责总结
知识库集成:使用词向量搜索给AI添加专业知识
工具链组合:把搜索、计算、文件处理等工具串联起来
自定义角色:通过system_prompt创建专业的AI助手
4.3 性能优化建议
本地模型:使用量化模型(int4、int8)节省显存
对话管理:合理设置conversation_rounds避免内存溢出
工具选择:只启用需要的工具,减少处理时间
缓存利用:启用is_locked避免重复计算
4.4 常用工作流模式
智能客服:LLM + 知识库 + 工具调用
内容创作:LLM + 文件加载 + 图像生成
数据分析:LLM + 文件处理 + 图表生成
多语言翻译:LLM + 文本处理 + 语音合成
5. 常见问题解答
Q1:如何配置API密钥?
A:
方法1:在config.ini文件中配置
方法2:直接在节点中输入
支持OpenAI、Claude、国产大模型等
Q2:本地模型需要什么配置?
A:
显存:至少8GB(推荐16GB以上)
内存:至少16GB(推荐32GB以上)
存储:模型文件通常几GB到几十GB
Q3:如何让AI使用工具?
A:
连接工具组合节点到LLM的tools输入
确保AI模型支持function calling
在system_prompt中说明工具用途
Q4:对话记忆如何管理?
A:
Q5:如何处理中文?
A:
插件完全支持中文
可以在config.ini中设置语言
所有节点都有中文显示名称
Q6:插件运行很慢怎么办?
A:
检查网络连接(API模式)
降低模型精度(本地模式)
减少max_length参数
关闭不需要的工具
Q7:如何创建专业AI助手?
A:
编写详细的system_prompt
添加相关的知识库
配置专业工具
测试和优化提示词
6. 结语
学习建议:
从简单的对话开始,逐步添加功能
多参考官方示例工作流
加入社区交流群获得帮助
定期关注插件更新
获得帮助:
这个插件真正实现了将ComfyUI从图像生成工具升级为全能AI工作平台的目标。通过118个核心节点的组合,你可以构建出几乎任何你想要的AI应用!🚀