ComfyUI 魔法书 Logo
🏠 首页
👥 加群
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI语音合成插件StepAudioTTS详细使用教程

ComfyUI语音合成插件StepAudioTTS详细使用教程

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-01
  • 53 次阅读
编程界的小学生
编程界的小学生

ComfyUI_StepAudioTTS 插件保姆级教程

1. 插件简介

插件地址: https://github.com/billwuhao/ComfyUI_StepAudioTTS

这个插件就像是给 ComfyUI 装了一个超级厉害的"说话机器人"!它能让电脑像真人一样说话、唱歌、说唱,甚至还能模仿你的声音。想象一下,你只要打几个字,电脑就能用各种不同的声音把这些文字读出来,就像请了好多个配音演员一样!

主要功能:

  • 📢 文字转语音:打字就能让电脑说话,就像手机的语音助手
  • 🎤 声音克隆:录一段你的声音,电脑就能学会用你的声音说话
  • 🎵 唱歌功能:不仅能说话,还能哼歌唱歌
  • 🎪 说唱模式:让电脑变身说唱歌手
  • 🌍 多语言支持:中文、英文、日语、韩语、粤语、四川话都能说
  • 🎭 情感表达:高兴、生气、悲伤、撒娇等各种情绪都能表现
  • 🎙️ 录音功能:直接用麦克风录制声音

2. 如何安装

方法一:自动安装(推荐新手)

  1. 打开 ComfyUI Manager(如果你装了的话)
  2. 搜索 "StepAudioTTS"
  3. 点击安装

方法二:手动安装

  1. 打开命令行(Windows 按 Win+R,输入 cmd)
  2. 输入以下命令:
cd ComfyUI/custom_nodes
git clone https://github.com/billwuhao/ComfyUI_StepAudioTTS.git
cd ComfyUI_StepAudioTTS
pip install -r requirements.txt

下载模型文件

你需要下载两个"大脑文件"让插件能工作:

  • Step-Audio-Tokenizer:负责理解声音的"翻译官"
  • Step-Audio-TTS-3B:负责生成声音的"发声器"

下载地址:

  • Huggingface 下载
  • Modelscope 下载

下载后放到:ComfyUI/models/TTS/ 文件夹里

3. 节点详细解析

3.1 Step Audio Run 节点

这个节点就像一个"万能播音员",你给它文字,它就能用不同的声音、情感、语言来读出来。

3.2 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
texttext字符串任意文本这就是你想让电脑说的话,就像给播音员的稿子输入的文本内容,支持多行文本输入"你好世界",电脑就会说"你好世界"
speakerspeaker下拉选择婷婷选择说话的人,就像选择不同的配音演员预设的说话人声音模型选择"婷婷"就用甜美女声,选择"明文"就用男声
emotionemotion下拉选择None说话的情绪,就像告诉演员要高兴还是生气情感标签,控制语音的情感表达选择"高兴1"会用开心的语调说话
languagelanguage下拉选择None用什么语言或方言说话,就像选择普通话还是方言语言或方言标签选择"粤语"就用粤语口音说话
expressexpress下拉选择None特殊的表达方式,比如唱歌或说唱特殊表达模式选择"RAP"就会用说唱方式表达
speedspeed下拉选择None说话的快慢,就像调节播放速度语速控制标签选择"慢速1"会说得比较慢
temperaturetemperature0.0-1.00.7声音的"创意度",数字越大声音越有变化生成时的随机性控制参数0.1很稳定但单调,0.9很有变化但可能不稳定
max_lengthmax_length整数8192最多能说多长的话,就像限制稿子的长度生成序列的最大长度限制短文本用4096,长文本用8192或更大
do_sampledo_sampleTrue/FalseTrue是否让声音有自然的变化,关闭会很机械是否使用采样生成True声音自然有变化,False声音固定但稳定
custom_markcustom_mark字符串空自定义的情感标签,用()包围自定义情感或风格标记输入"(温柔)(东北话)"会用温柔的东北话
unload_modelunload_modelTrue/FalseTrue用完后是否清理内存,就像用完工具要收拾是否在生成后卸载模型释放显存True节省内存但下次慢,False占内存但下次快

3.3 Step Audio Clone 节点

这个节点就像一个"声音复印机",你给它一段录音和对应的文字,它就能学会用这个声音说其他的话。

3.4 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
clone_audioclone_audio音频文件任意音频要模仿的声音样本,就像给电脑听一段录音用于声音克隆的参考音频录一段你说"大家好"的声音
clone_textclone_text字符串对应文本录音里说的是什么话,让电脑知道声音对应的文字参考音频对应的文本内容如果录音说的是"大家好",就填"大家好"
texttext字符串任意文本你想让克隆的声音说什么新话要用克隆声音生成的新文本填"今天天气真好",就会用你的声音说这句话
emotionemotion下拉选择None说话的情绪,就像告诉演员要高兴还是生气情感标签,控制语音的情感表达选择"高兴1"会用开心的语调说话
languagelanguage下拉选择None用什么语言或方言说话,就像选择普通话还是方言语言或方言标签选择"粤语"就用粤语口音说话
expressexpress下拉选择None特殊的表达方式,比如唱歌或说唱特殊表达模式选择"RAP"就会用说唱方式表达
speedspeed下拉选择None说话的快慢,就像调节播放速度语速控制标签选择"慢速1"会说得比较慢
temperaturetemperature0.0-1.00.7声音的"创意度",数字越大声音越有变化生成时的随机性控制参数0.1很稳定但单调,0.9很有变化但可能不稳定
max_lengthmax_length整数8192最多能说多长的话,就像限制稿子的长度生成序列的最大长度限制短文本用4096,长文本用8192或更大
do_sampledo_sampleTrue/FalseTrue是否让声音有自然的变化,关闭会很机械是否使用采样生成True声音自然有变化,False声音固定但稳定
custom_markcustom_mark字符串空自定义的情感标签,用()包围自定义情感或风格标记输入"(温柔)(东北话)"会用温柔的东北话
unload_modelunload_modelTrue/FalseTrue用完后是否清理内存,就像用完工具要收拾是否在生成后卸载模型释放显存True节省内存但下次慢,False占内存但下次快

3.5 MW Audio Recorder 节点

这个节点就像一个"智能录音机",不仅能录音,还能自动去除噪音,让录音更清晰。

3.6 参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
record_secrecord_sec1-605录音时长,就像设定录音机录多少秒录音持续时间(秒)设置5就录5秒钟,设置10就录10秒钟
sample_ratesample_rate16000/44100/4800048000录音质量,数字越大质量越好但文件越大音频采样率,影响音质16000够用,44100是CD质量,48000是专业级
n_fftn_fft512-40962048声音分析的精细度,数字越大分析越细致FFT窗口大小,影响频率分辨率2048适合语音,4096适合音乐
sensitivitysensitivity0.1-3.01.2降噪的强度,数字越大去噪越厉害噪声检测敏感度1.0适合安静环境,2.0适合嘈杂环境
smoothsmooth1-75声音处理的平滑度,让声音听起来更自然时频平滑系数3适合清晰语音,7适合自然音乐
seedseed整数0随机数种子,用来保证结果可重复随机种子,确保结果可复现用同样的seed会得到同样的结果
enableenableTrue/FalseTrue录音开关,就像录音机的开始按钮是否启用录音功能True开始录音,False停止录音

4. 使用技巧和建议

4.1 声音选择技巧

  • 婷婷:甜美女声,适合温柔的内容
  • 婷婷RAP:专门用于说唱,节奏感强
  • 婷婷哼唱:适合唱歌或哼唱
  • 明文:男声,适合正式内容
  • 撒娇小美:撒娇语调,适合可爱的内容

4.2 情感搭配建议

  • 日常对话:emotion选择"None"或"高兴1"
  • 严肃内容:不选择emotion,保持中性
  • 活泼内容:选择"高兴2"
  • 温柔内容:使用custom_mark填入"(温柔)"

4.3 语言使用技巧

  • 中英混合:language选择"中文",文本中直接写英文
  • 方言效果:选择"四川话"或"粤语"会有方言口音
  • 外语内容:选择对应语言,如"日语"、"韩语"

4.4 参数调优建议

  • 追求稳定:temperature设为0.3-0.5,do_sample设为False
  • 追求自然:temperature设为0.7-0.9,do_sample设为True
  • 长文本:max_length设为8192或更大
  • 短文本:max_length设为4096节省时间

4.5 声音克隆技巧

  • 录音质量:使用清晰、无噪音的录音
  • 录音长度:3-10秒最佳,太短效果差,太长浪费
  • 文本匹配:clone_text必须与录音内容完全一致
  • 环境安静:录音时保持环境安静

5. 常见问题解答

Q1:为什么生成的声音很机械?

A: 试试这些方法:

  • 把temperature调高到0.7-0.8
  • 确保do_sample设为True
  • 添加适当的emotion标签
  • 检查文本是否有标点符号

Q2:声音克隆效果不好怎么办?

A: 检查这些方面:

  • 录音是否清晰无噪音
  • clone_text是否与录音完全匹配
  • 录音长度是否在3-10秒之间
  • 尝试调整temperature参数

Q3:生成速度很慢怎么办?

A: 可以这样优化:

  • 把unload_model设为False(如果显存够用)
  • 减小max_length参数
  • 使用更短的文本
  • 确保使用GPU而不是CPU

Q4:内存不够用怎么办?

A: 试试这些方法:

  • 把unload_model设为True
  • 关闭其他占用显存的程序
  • 减小max_length参数
  • 分段处理长文本

Q5:录音节点没有声音怎么办?

A: 检查这些设置:

  • 确保麦克风权限已开启
  • 检查系统音频设备设置
  • 尝试不同的sample_rate
  • 确保enable参数为True

Q6:如何添加自定义说话人?

A: 按照以下步骤:

  1. 准备一段3-10秒的清晰录音(WAV格式)
  2. 将录音文件命名为"说话人名称_prompt.wav"
  3. 放到ComfyUI/models/TTS/Step-Audio-speakers/文件夹
  4. 编辑同文件夹下的speakers_info.json文件
  5. 添加新的说话人信息,格式如:"说话人名称": "录音中说的文字"

Q7:支持哪些音频格式?

A:

  • 输入:WAV、MP3、FLAC等常见格式
  • 输出:WAV格式,采样率22050Hz
  • 录音:WAV格式,可选16000/44100/48000Hz

6. 高级使用技巧

6.1 批量生成语音

如果你要生成很多段语音,建议:

  1. 把unload_model设为False
  2. 准备好所有文本
  3. 逐个生成,最后一个再设unload_model为True

6.2 情感标签组合

可以组合多个标签,例如:

  • custom_mark填入"(温柔)(慢速1)"
  • 或者"(高兴1)(粤语)"

6.3 长文本处理

对于很长的文本:

  1. 按句子分段
  2. 每段单独生成
  3. 后期拼接音频

6.4 音质优化

  • 使用48000Hz采样率录音
  • 在安静环境中录制
  • 使用专业麦克风
  • 录音后可以用音频软件进一步处理

7. 故障排除

7.1 模型加载失败

  • 检查模型文件是否完整下载
  • 确认文件夹结构正确
  • 重启ComfyUI

7.2 CUDA内存错误

  • 减小batch size
  • 启用unload_model
  • 关闭其他占用GPU的程序

7.3 音频输出异常

  • 检查音频播放设备
  • 尝试不同的采样率
  • 确认音频文件没有损坏

8. 总结

这个插件就像给ComfyUI装了一个专业的配音工作室!无论你是想做视频配音、制作有声读物,还是想玩声音克隆,都能轻松搞定。记住几个要点:

  1. 选对声音:根据内容选择合适的说话人
  2. 调好参数:temperature和do_sample影响自然度
  3. 用好标签:emotion和language让声音更生动
  4. 管好内存:合理使用unload_model参数
  5. 录音质量:声音克隆的关键是高质量录音

现在你已经是Step Audio TTS的专家了!赶紧去试试让电脑用你的声音说话吧!🎉

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号