# ComfyUI 语音转文字工具插件详解 (ComfyUI-TranscriptionTools) ## 1. 插件简介 这是一个能把语音变成文字的超级实用小工具!它就像是一个会打字的助手,可以帮你把语音文件(比如MP3)中的说话内容转换成文字。 GitHub 地址:https://github.com/royceschultz/ComfyUI-TranscriptionTools ## 2. 如何安装 就像安装其他 ComfyUI 插件一样简单: 1. 打开你的 ComfyUI 文件夹 2. 进入 `custom_nodes` 文件夹 3. 在这里打开命令行,输入: ```bash git clone https://github.com/royceschultz/ComfyUI-TranscriptionTools cd ComfyUI-TranscriptionTools pip install -r requirements.txt ``` ## 3. 节点详解 ### 3.1 WhisperLoader 节点 这个节点就像是一个搬运工,负责把语音识别的"工具包"准备好,方便后面使用。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用建议 | |----------------|----------------|--------|--------|----------|----------|----------| | 模型大小 | model_size | tiny/base/small/medium/large | base | 就像选择工具箱的大小,越大的工具箱能力越强,但占地方 | 不同规格的Whisper模型 | 一般用base就够了,想要更准确可以用large | ### 3.2 LoadAudioFile 节点 这个节点就像是一个音乐播放器,负责把音频文件读进来。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用建议 | |----------------|----------------|--------|--------|----------|----------|----------| | 文件路径 | file_path | 字符串 | - | 音频文件在电脑上的位置 | 音频文件的系统路径 | 直接把音频文件拖进来就行 | ### 3.3 TranscribeAudio 节点 这个是最重要的节点,就像一个会听写的秘书,负责把声音变成文字。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用建议 | |----------------|----------------|--------|--------|----------|----------|----------| | 语言 | language | null/en/zh等 | null | 选择要识别的语言 | 目标语言代码 | 不确定语言就选null,让它自动判断 | | 任务类型 | task | transcribe/translate | transcribe | 是要听写还是要翻译 | 音频处理任务类型 | 一般就用transcribe | ## 4. 使用技巧和建议 - 音频文件最好是清晰的人声,背景噪音越少越好 - 如果音频很长,建议先剪成小段,这样处理起来更快 - 识别中文时,最好选择large模型,准确度会高很多 ## 5. 常见问题解答 Q: 为什么我的音频文件读不进来? A: 检查一下文件格式是不是常见的音频格式(mp3、wav等) Q: 识别很慢怎么办? A: 可以试试用更小的模型(比如base),或者把音频文件剪短一点 Q: 识别的准确度不高怎么办? A: 可以换用更大的模型(比如large),或者确保音频质量够好,说话声音够清晰 ## 6. 补充说明 - 这个插件特别适合做视频字幕、会议记录、采访整理等工作 - 支持多种语言的识别和翻译 - 建议准备一台显存够大的电脑,特别是用large模型的时候 记住:第一次使用时会自动下载模型,需要等一会儿,要保持网络通畅哦!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com