ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-EdgeTTS插件零基础入门指南 手把手教你玩转AI语音

ComfyUI-EdgeTTS插件零基础入门指南 手把手教你玩转AI语音

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-06
  • 15 次阅读
编程界的小学生
编程界的小学生

ComfyUI-EdgeTTS 插件完全新手教程

1. 插件简介

ComfyUI-EdgeTTS 是一个专门为 ComfyUI 设计的语音处理插件,就像是给你的 ComfyUI 装上了一个"会说话的嘴巴"和"会听话的耳朵"。这个插件有三个主要功能:

  • Edge TTS:把文字变成语音,就像让电脑读课文一样
  • Whisper STT:把语音变成文字,就像语音转文字助手一样
  • Save Audio:把音频文件保存到电脑里,就像下载音乐一样

插件地址:https://github.com/1038lab/ComfyUI-EdgeTTS

支持多种语言和声音选择,可以调节语速和音调,让你的 AI 作品更加生动有趣。

2. 如何安装

方法一:使用 ComfyUI Manager(推荐给新手)

  1. 打开 ComfyUI,点击右侧的 "Manager" 按钮
  2. 在搜索框里输入 "EdgeTTS"
  3. 找到 "ComfyUI-EdgeTTS" 点击 "Install"
  4. 等待安装完成后重启 ComfyUI

方法二:手动安装

  1. 打开命令行(Windows 按 Win+R,输入 cmd)
  2. 切换到 ComfyUI 的 custom_nodes 文件夹
  3. 执行以下命令:
git clone https://github.com/1038lab/ComfyUI-EdgeTTS.git
cd ComfyUI-EdgeTTS
pip install -r requirements.txt

3. 节点详细解析

3.1 Edge TTS 节点 - 文字转语音神器

Edge TTS 节点就像是一个"朗读机器人",你给它一段文字,它就能用各种声音给你读出来。

3.1.1 参数详解

参数名 (界面显示) 参数名 (代码) 参数类型 建议值 通俗解释 专业解释 使用举例
Text text 文本输入 你要转换的文字 就像你要让机器人读的台词 待转换为语音的文本内容 输入"你好世界",机器人就会说"你好世界"
Voice voice 下拉选择 zh-CN-XiaoxiaoNeural 选择说话人的声音,就像选择男主播还是女主播 选择不同的语音引擎和说话人 选择中文女声或英文男声
Rate rate 滑块 0(正常语速) 控制说话速度,就像调节播放器的倍速 语音播放速度调节参数 +50 说话更快,-50 说话更慢
Pitch pitch 滑块 0(正常音调) 控制声音高低,就像调节音响的高低音 语音音调高低调节参数 +20 声音更尖,-20 声音更低沉
Volume volume 滑块 0(正常音量) 控制声音大小,就像调节音量旋钮 语音音量大小调节参数 +30 声音更大,-30 声音更小

3.2 Whisper STT 节点 - 语音转文字助手

Whisper STT 节点就像是一个"速记员",你给它一段录音,它就能把说话内容写成文字。

3.2.1 参数详解

参数名 (界面显示) 参数名 (代码) 参数类型 建议值 通俗解释 专业解释 使用举例
Audio audio 音频输入 你的音频文件 就像给速记员播放录音 待转换的音频数据输入 连接音频文件或录音
Model model 下拉选择 base 选择识别精度,就像选择翻译软件的准确度 选择不同大小的语音识别模型 tiny最快但不准确,large最准确但最慢
Language language 下拉选择 auto 选择语言类型,就像告诉翻译软件这是中文还是英文 指定音频语言类型或自动检测 选择中文、英文或让系统自动判断
Temperature temperature 滑块 0.0 控制识别的"大胆程度",就像调节猜测的冒险程度 控制模型输出的随机性程度 0.0最保守准确,1.0最大胆可能出错
Condition_on_previous_text condition_on_previous_text 复选框 True 是否参考前面的内容来理解,就像看上下文猜意思 是否基于前文内容进行语音识别 勾选后能更好理解连贯对话

3.3 Save Audio 节点 - 音频保存管家

Save Audio 节点就像是一个"音乐下载器",把生成的音频文件保存到你的电脑里。

3.3.1 参数详解

参数名 (界面显示) 参数名 (代码) 参数类型 建议值 通俗解释 专业解释 使用举例
Audio audio 音频输入 来自其他节点的音频 就像选择要保存的音乐文件 待保存的音频数据输入 连接 Edge TTS 的音频输出
Filename filename 文本输入 output_audio 给文件起个名字,就像给照片命名 输出文件的名称设置 输入"我的语音"会保存为"我的语音.wav"
Format format 下拉选择 WAV 选择音频格式,就像选择图片是PNG还是JPG 音频文件的编码格式选择 WAV质量最好,MP3文件最小
Quality quality 下拉选择 High 选择音质好坏,就像选择视频清晰度 音频压缩质量设置 High最好听但文件大,Low文件小但音质差
Path path 文本输入 默认路径 选择保存到哪个文件夹,就像选择下载位置 文件保存的目录路径设置 输入"C:\我的音频\"指定保存位置
Auto_increment auto_increment 复选框 True 自动给文件编号,就像自动给照片加序号 是否自动为重复文件名添加数字后缀 勾选后会自动生成文件名_001、_002等

4. 使用技巧和建议

4.1 声音选择小贴士

  • 中文内容:推荐使用 zh-CN-XiaoxiaoNeural(小晓)或 zh-CN-YunxiNeural(云希)
  • 英文内容:推荐使用 en-US-JennyNeural(珍妮)或 en-US-GuyNeural(盖伊)
  • 多语言:可以尝试支持多语言的声音如 Multilingual 系列

4.2 语速和音调调节

  • 正常对话:Rate 保持在 -20 到 +20 之间
  • 朗读课文:Rate 设置为 -30 到 -10,让语速慢一点
  • 广告配音:Rate 设置为 +10 到 +30,让语速快一点
  • Pitch 调节:女声可以适当调高(+10 到 +20),男声可以适当调低(-10 到 -20)

4.3 音频质量建议

  • 最终作品:选择 WAV 格式 + High 质量
  • 测试阶段:选择 MP3 格式 + Medium 质量,节省空间
  • 网络分享:选择 MP3 格式 + Low 质量,方便传输

5. 常见问题解答

Q1:为什么我的中文发音不标准?

A:试试更换不同的中文声音,比如从 XiaoxiaoNeural 换成 YunxiNeural,每个声音的发音特点都不一样。

Q2:生成的音频文件太大了怎么办?

A:可以选择 MP3 格式并设置 Medium 或 Low 质量,文件会小很多。

Q3:Whisper STT 识别不准确怎么办?

A:试试以下方法: - 换个更大的模型(从 tiny 换成 base 或 large) - 确保音频清晰,没有太多背景噪音 - 手动选择正确的语言,不要用 auto

Q4:音频保存后找不到文件?

A:检查 Path 参数是否设置正确,或者在 ComfyUI 的 output 文件夹里找找。

Q5:支持哪些语言?

A:支持包括中文(普通话、粤语、台湾话)、英语、日语、韩语、法语、德语、西班牙语、俄语、意大利语、葡萄牙语、荷兰语、波兰语、土耳其语、阿拉伯语、印地语、印尼语、越南语、泰语、乌克兰语等多种语言。

6. 实用工作流程推荐

6.1 简单的文字转语音流程

  1. 添加 Edge TTS 节点
  2. 在 Text 里输入你要转换的文字
  3. 选择合适的声音
  4. 连接 Save Audio 节点
  5. 运行工作流程

6.2 语音转文字再转语音流程

  1. 添加 Whisper STT 节点,输入音频文件
  2. 连接 Edge TTS 节点,用不同的声音重新朗读
  3. 连接 Save Audio 节点保存新的音频
  4. 这样就实现了"换声音"的效果

6.3 批量处理技巧

  • 使用 Auto_increment 功能避免文件名冲突
  • 设置固定的保存路径,方便管理文件
  • 可以结合其他 ComfyUI 节点实现更复杂的音频处理

7. 进阶使用建议

7.1 配合其他插件使用

  • 可以和视频生成插件配合,为视频添加配音
  • 可以和图片生成插件配合,为图片添加语音描述
  • 可以和文本生成插件配合,实现自动朗读生成的文章

7.2 创意应用场景

  • 有声读物制作:把小说转换成有声书
  • 多语言配音:为同一内容制作不同语言版本
  • 播客制作:快速生成播客内容
  • 教学材料:制作语音教学内容
  • 游戏配音:为游戏角色添加语音

这个插件非常适合需要处理音频内容的创作者,无论是制作教学视频、播客、还是其他创意项目,都能大大提高工作效率。记住,多尝试不同的参数组合,找到最适合你项目的设置!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号