ComfyUI-EdgeTTS 插件完全新手教程
1. 插件简介
ComfyUI-EdgeTTS 是一个专门为 ComfyUI 设计的语音处理插件,就像是给你的 ComfyUI 装上了一个"会说话的嘴巴"和"会听话的耳朵"。这个插件有三个主要功能:
- Edge TTS:把文字变成语音,就像让电脑读课文一样
- Whisper STT:把语音变成文字,就像语音转文字助手一样
- Save Audio:把音频文件保存到电脑里,就像下载音乐一样
插件地址:https://github.com/1038lab/ComfyUI-EdgeTTS
支持多种语言和声音选择,可以调节语速和音调,让你的 AI 作品更加生动有趣。
2. 如何安装
方法一:使用 ComfyUI Manager(推荐给新手)
- 打开 ComfyUI,点击右侧的 "Manager" 按钮
- 在搜索框里输入 "EdgeTTS"
- 找到 "ComfyUI-EdgeTTS" 点击 "Install"
- 等待安装完成后重启 ComfyUI
方法二:手动安装
- 打开命令行(Windows 按 Win+R,输入 cmd)
- 切换到 ComfyUI 的 custom_nodes 文件夹
- 执行以下命令:
git clone https://github.com/1038lab/ComfyUI-EdgeTTS.git
cd ComfyUI-EdgeTTS
pip install -r requirements.txt
3. 节点详细解析
3.1 Edge TTS 节点 - 文字转语音神器
Edge TTS 节点就像是一个"朗读机器人",你给它一段文字,它就能用各种声音给你读出来。
3.1.1 参数详解
| 参数名 (界面显示) | 参数名 (代码) | 参数类型 | 建议值 | 通俗解释 | 专业解释 | 使用举例 |
|---|---|---|---|---|---|---|
| Text | text | 文本输入 | 你要转换的文字 | 就像你要让机器人读的台词 | 待转换为语音的文本内容 | 输入"你好世界",机器人就会说"你好世界" |
| Voice | voice | 下拉选择 | zh-CN-XiaoxiaoNeural | 选择说话人的声音,就像选择男主播还是女主播 | 选择不同的语音引擎和说话人 | 选择中文女声或英文男声 |
| Rate | rate | 滑块 | 0(正常语速) | 控制说话速度,就像调节播放器的倍速 | 语音播放速度调节参数 | +50 说话更快,-50 说话更慢 |
| Pitch | pitch | 滑块 | 0(正常音调) | 控制声音高低,就像调节音响的高低音 | 语音音调高低调节参数 | +20 声音更尖,-20 声音更低沉 |
| Volume | volume | 滑块 | 0(正常音量) | 控制声音大小,就像调节音量旋钮 | 语音音量大小调节参数 | +30 声音更大,-30 声音更小 |
3.2 Whisper STT 节点 - 语音转文字助手
Whisper STT 节点就像是一个"速记员",你给它一段录音,它就能把说话内容写成文字。
3.2.1 参数详解
| 参数名 (界面显示) | 参数名 (代码) | 参数类型 | 建议值 | 通俗解释 | 专业解释 | 使用举例 |
|---|---|---|---|---|---|---|
| Audio | audio | 音频输入 | 你的音频文件 | 就像给速记员播放录音 | 待转换的音频数据输入 | 连接音频文件或录音 |
| Model | model | 下拉选择 | base | 选择识别精度,就像选择翻译软件的准确度 | 选择不同大小的语音识别模型 | tiny最快但不准确,large最准确但最慢 |
| Language | language | 下拉选择 | auto | 选择语言类型,就像告诉翻译软件这是中文还是英文 | 指定音频语言类型或自动检测 | 选择中文、英文或让系统自动判断 |
| Temperature | temperature | 滑块 | 0.0 | 控制识别的"大胆程度",就像调节猜测的冒险程度 | 控制模型输出的随机性程度 | 0.0最保守准确,1.0最大胆可能出错 |
| Condition_on_previous_text | condition_on_previous_text | 复选框 | True | 是否参考前面的内容来理解,就像看上下文猜意思 | 是否基于前文内容进行语音识别 | 勾选后能更好理解连贯对话 |
3.3 Save Audio 节点 - 音频保存管家
Save Audio 节点就像是一个"音乐下载器",把生成的音频文件保存到你的电脑里。
3.3.1 参数详解
| 参数名 (界面显示) | 参数名 (代码) | 参数类型 | 建议值 | 通俗解释 | 专业解释 | 使用举例 |
|---|---|---|---|---|---|---|
| Audio | audio | 音频输入 | 来自其他节点的音频 | 就像选择要保存的音乐文件 | 待保存的音频数据输入 | 连接 Edge TTS 的音频输出 |
| Filename | filename | 文本输入 | output_audio | 给文件起个名字,就像给照片命名 | 输出文件的名称设置 | 输入"我的语音"会保存为"我的语音.wav" |
| Format | format | 下拉选择 | WAV | 选择音频格式,就像选择图片是PNG还是JPG | 音频文件的编码格式选择 | WAV质量最好,MP3文件最小 |
| Quality | quality | 下拉选择 | High | 选择音质好坏,就像选择视频清晰度 | 音频压缩质量设置 | High最好听但文件大,Low文件小但音质差 |
| Path | path | 文本输入 | 默认路径 | 选择保存到哪个文件夹,就像选择下载位置 | 文件保存的目录路径设置 | 输入"C:\我的音频\"指定保存位置 |
| Auto_increment | auto_increment | 复选框 | True | 自动给文件编号,就像自动给照片加序号 | 是否自动为重复文件名添加数字后缀 | 勾选后会自动生成文件名_001、_002等 |
4. 使用技巧和建议
4.1 声音选择小贴士
- 中文内容:推荐使用 zh-CN-XiaoxiaoNeural(小晓)或 zh-CN-YunxiNeural(云希)
- 英文内容:推荐使用 en-US-JennyNeural(珍妮)或 en-US-GuyNeural(盖伊)
- 多语言:可以尝试支持多语言的声音如 Multilingual 系列
4.2 语速和音调调节
- 正常对话:Rate 保持在 -20 到 +20 之间
- 朗读课文:Rate 设置为 -30 到 -10,让语速慢一点
- 广告配音:Rate 设置为 +10 到 +30,让语速快一点
- Pitch 调节:女声可以适当调高(+10 到 +20),男声可以适当调低(-10 到 -20)
4.3 音频质量建议
- 最终作品:选择 WAV 格式 + High 质量
- 测试阶段:选择 MP3 格式 + Medium 质量,节省空间
- 网络分享:选择 MP3 格式 + Low 质量,方便传输
5. 常见问题解答
Q1:为什么我的中文发音不标准?
A:试试更换不同的中文声音,比如从 XiaoxiaoNeural 换成 YunxiNeural,每个声音的发音特点都不一样。
Q2:生成的音频文件太大了怎么办?
A:可以选择 MP3 格式并设置 Medium 或 Low 质量,文件会小很多。
Q3:Whisper STT 识别不准确怎么办?
A:试试以下方法: - 换个更大的模型(从 tiny 换成 base 或 large) - 确保音频清晰,没有太多背景噪音 - 手动选择正确的语言,不要用 auto
Q4:音频保存后找不到文件?
A:检查 Path 参数是否设置正确,或者在 ComfyUI 的 output 文件夹里找找。
Q5:支持哪些语言?
A:支持包括中文(普通话、粤语、台湾话)、英语、日语、韩语、法语、德语、西班牙语、俄语、意大利语、葡萄牙语、荷兰语、波兰语、土耳其语、阿拉伯语、印地语、印尼语、越南语、泰语、乌克兰语等多种语言。
6. 实用工作流程推荐
6.1 简单的文字转语音流程
- 添加 Edge TTS 节点
- 在 Text 里输入你要转换的文字
- 选择合适的声音
- 连接 Save Audio 节点
- 运行工作流程
6.2 语音转文字再转语音流程
- 添加 Whisper STT 节点,输入音频文件
- 连接 Edge TTS 节点,用不同的声音重新朗读
- 连接 Save Audio 节点保存新的音频
- 这样就实现了"换声音"的效果
6.3 批量处理技巧
- 使用 Auto_increment 功能避免文件名冲突
- 设置固定的保存路径,方便管理文件
- 可以结合其他 ComfyUI 节点实现更复杂的音频处理
7. 进阶使用建议
7.1 配合其他插件使用
- 可以和视频生成插件配合,为视频添加配音
- 可以和图片生成插件配合,为图片添加语音描述
- 可以和文本生成插件配合,实现自动朗读生成的文章
7.2 创意应用场景
- 有声读物制作:把小说转换成有声书
- 多语言配音:为同一内容制作不同语言版本
- 播客制作:快速生成播客内容
- 教学材料:制作语音教学内容
- 游戏配音:为游戏角色添加语音
这个插件非常适合需要处理音频内容的创作者,无论是制作教学视频、播客、还是其他创意项目,都能大大提高工作效率。记住,多尝试不同的参数组合,找到最适合你项目的设置!