ComfyUI_StepAudioTTS 插件保姆级教程
1. 插件简介
插件地址: https://github.com/billwuhao/ComfyUI_StepAudioTTS
这个插件就像是给 ComfyUI 装了一个超级厉害的"说话机器人"!它能让电脑像真人一样说话、唱歌、说唱,甚至还能模仿你的声音。想象一下,你只要打几个字,电脑就能用各种不同的声音把这些文字读出来,就像请了好多个配音演员一样!
主要功能:
- 📢 文字转语音:打字就能让电脑说话,就像手机的语音助手
- 🎤 声音克隆:录一段你的声音,电脑就能学会用你的声音说话
- 🎵 唱歌功能:不仅能说话,还能哼歌唱歌
- 🎪 说唱模式:让电脑变身说唱歌手
- 🌍 多语言支持:中文、英文、日语、韩语、粤语、四川话都能说
- 🎭 情感表达:高兴、生气、悲伤、撒娇等各种情绪都能表现
- 🎙️ 录音功能:直接用麦克风录制声音
2. 如何安装
方法一:自动安装(推荐新手)
- 打开 ComfyUI Manager(如果你装了的话)
- 搜索 "StepAudioTTS"
- 点击安装
方法二:手动安装
- 打开命令行(Windows 按 Win+R,输入 cmd)
- 输入以下命令:
cd ComfyUI/custom_nodes
git clone https://github.com/billwuhao/ComfyUI_StepAudioTTS.git
cd ComfyUI_StepAudioTTS
pip install -r requirements.txt
下载模型文件
你需要下载两个"大脑文件"让插件能工作:
- Step-Audio-Tokenizer:负责理解声音的"翻译官"
- Step-Audio-TTS-3B:负责生成声音的"发声器"
下载地址:
下载后放到:ComfyUI/models/TTS/ 文件夹里
3. 节点详细解析
3.1 Step Audio Run 节点
这个节点就像一个"万能播音员",你给它文字,它就能用不同的声音、情感、语言来读出来。
3.2 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 字符串 | 任意文本 | 这就是你想让电脑说的话,就像给播音员的稿子 | 输入的文本内容,支持多行文本 | 输入"你好世界",电脑就会说"你好世界" |
| speaker | speaker | 下拉选择 | 婷婷 | 选择说话的人,就像选择不同的配音演员 | 预设的说话人声音模型 | 选择"婷婷"就用甜美女声,选择"明文"就用男声 |
| emotion | emotion | 下拉选择 | None | 说话的情绪,就像告诉演员要高兴还是生气 | 情感标签,控制语音的情感表达 | 选择"高兴1"会用开心的语调说话 |
| language | language | 下拉选择 | None | 用什么语言或方言说话,就像选择普通话还是方言 | 语言或方言标签 | 选择"粤语"就用粤语口音说话 |
| express | express | 下拉选择 | None | 特殊的表达方式,比如唱歌或说唱 | 特殊表达模式 | 选择"RAP"就会用说唱方式表达 |
| speed | speed | 下拉选择 | None | 说话的快慢,就像调节播放速度 | 语速控制标签 | 选择"慢速1"会说得比较慢 |
| temperature | temperature | 0.0-1.0 | 0.7 | 声音的"创意度",数字越大声音越有变化 | 生成时的随机性控制参数 | 0.1很稳定但单调,0.9很有变化但可能不稳定 |
| max_length | max_length | 整数 | 8192 | 最多能说多长的话,就像限制稿子的长度 | 生成序列的最大长度限制 | 短文本用4096,长文本用8192或更大 |
| do_sample | do_sample | True/False | True | 是否让声音有自然的变化,关闭会很机械 | 是否使用采样生成 | True声音自然有变化,False声音固定但稳定 |
| custom_mark | custom_mark | 字符串 | 空 | 自定义的情感标签,用()包围 | 自定义情感或风格标记 | 输入"(温柔)(东北话)"会用温柔的东北话 |
| unload_model | unload_model | True/False | True | 用完后是否清理内存,就像用完工具要收拾 | 是否在生成后卸载模型释放显存 | True节省内存但下次慢,False占内存但下次快 |
3.3 Step Audio Clone 节点
这个节点就像一个"声音复印机",你给它一段录音和对应的文字,它就能学会用这个声音说其他的话。
3.4 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| clone_audio | clone_audio | 音频文件 | 任意音频 | 要模仿的声音样本,就像给电脑听一段录音 | 用于声音克隆的参考音频 | 录一段你说"大家好"的声音 |
| clone_text | clone_text | 字符串 | 对应文本 | 录音里说的是什么话,让电脑知道声音对应的文字 | 参考音频对应的文本内容 | 如果录音说的是"大家好",就填"大家好" |
| text | text | 字符串 | 任意文本 | 你想让克隆的声音说什么新话 | 要用克隆声音生成的新文本 | 填"今天天气真好",就会用你的声音说这句话 |
| emotion | emotion | 下拉选择 | None | 说话的情绪,就像告诉演员要高兴还是生气 | 情感标签,控制语音的情感表达 | 选择"高兴1"会用开心的语调说话 |
| language | language | 下拉选择 | None | 用什么语言或方言说话,就像选择普通话还是方言 | 语言或方言标签 | 选择"粤语"就用粤语口音说话 |
| express | express | 下拉选择 | None | 特殊的表达方式,比如唱歌或说唱 | 特殊表达模式 | 选择"RAP"就会用说唱方式表达 |
| speed | speed | 下拉选择 | None | 说话的快慢,就像调节播放速度 | 语速控制标签 | 选择"慢速1"会说得比较慢 |
| temperature | temperature | 0.0-1.0 | 0.7 | 声音的"创意度",数字越大声音越有变化 | 生成时的随机性控制参数 | 0.1很稳定但单调,0.9很有变化但可能不稳定 |
| max_length | max_length | 整数 | 8192 | 最多能说多长的话,就像限制稿子的长度 | 生成序列的最大长度限制 | 短文本用4096,长文本用8192或更大 |
| do_sample | do_sample | True/False | True | 是否让声音有自然的变化,关闭会很机械 | 是否使用采样生成 | True声音自然有变化,False声音固定但稳定 |
| custom_mark | custom_mark | 字符串 | 空 | 自定义的情感标签,用()包围 | 自定义情感或风格标记 | 输入"(温柔)(东北话)"会用温柔的东北话 |
| unload_model | unload_model | True/False | True | 用完后是否清理内存,就像用完工具要收拾 | 是否在生成后卸载模型释放显存 | True节省内存但下次慢,False占内存但下次快 |
3.5 MW Audio Recorder 节点
这个节点就像一个"智能录音机",不仅能录音,还能自动去除噪音,让录音更清晰。
3.6 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| record_sec | record_sec | 1-60 | 5 | 录音时长,就像设定录音机录多少秒 | 录音持续时间(秒) | 设置5就录5秒钟,设置10就录10秒钟 |
| sample_rate | sample_rate | 16000/44100/48000 | 48000 | 录音质量,数字越大质量越好但文件越大 | 音频采样率,影响音质 | 16000够用,44100是CD质量,48000是专业级 |
| n_fft | n_fft | 512-4096 | 2048 | 声音分析的精细度,数字越大分析越细致 | FFT窗口大小,影响频率分辨率 | 2048适合语音,4096适合音乐 |
| sensitivity | sensitivity | 0.1-3.0 | 1.2 | 降噪的强度,数字越大去噪越厉害 | 噪声检测敏感度 | 1.0适合安静环境,2.0适合嘈杂环境 |
| smooth | smooth | 1-7 | 5 | 声音处理的平滑度,让声音听起来更自然 | 时频平滑系数 | 3适合清晰语音,7适合自然音乐 |
| seed | seed | 整数 | 0 | 随机数种子,用来保证结果可重复 | 随机种子,确保结果可复现 | 用同样的seed会得到同样的结果 |
| enable | enable | True/False | True | 录音开关,就像录音机的开始按钮 | 是否启用录音功能 | True开始录音,False停止录音 |
4. 使用技巧和建议
4.1 声音选择技巧
- 婷婷:甜美女声,适合温柔的内容
- 婷婷RAP:专门用于说唱,节奏感强
- 婷婷哼唱:适合唱歌或哼唱
- 明文:男声,适合正式内容
- 撒娇小美:撒娇语调,适合可爱的内容
4.2 情感搭配建议
- 日常对话:emotion选择"None"或"高兴1"
- 严肃内容:不选择emotion,保持中性
- 活泼内容:选择"高兴2"
- 温柔内容:使用custom_mark填入"(温柔)"
4.3 语言使用技巧
- 中英混合:language选择"中文",文本中直接写英文
- 方言效果:选择"四川话"或"粤语"会有方言口音
- 外语内容:选择对应语言,如"日语"、"韩语"
4.4 参数调优建议
- 追求稳定:temperature设为0.3-0.5,do_sample设为False
- 追求自然:temperature设为0.7-0.9,do_sample设为True
- 长文本:max_length设为8192或更大
- 短文本:max_length设为4096节省时间
4.5 声音克隆技巧
- 录音质量:使用清晰、无噪音的录音
- 录音长度:3-10秒最佳,太短效果差,太长浪费
- 文本匹配:clone_text必须与录音内容完全一致
- 环境安静:录音时保持环境安静
5. 常见问题解答
Q1:为什么生成的声音很机械?
A: 试试这些方法:
- 把temperature调高到0.7-0.8
- 确保do_sample设为True
- 添加适当的emotion标签
- 检查文本是否有标点符号
Q2:声音克隆效果不好怎么办?
A: 检查这些方面:
- 录音是否清晰无噪音
- clone_text是否与录音完全匹配
- 录音长度是否在3-10秒之间
- 尝试调整temperature参数
Q3:生成速度很慢怎么办?
A: 可以这样优化:
- 把unload_model设为False(如果显存够用)
- 减小max_length参数
- 使用更短的文本
- 确保使用GPU而不是CPU
Q4:内存不够用怎么办?
A: 试试这些方法:
- 把unload_model设为True
- 关闭其他占用显存的程序
- 减小max_length参数
- 分段处理长文本
Q5:录音节点没有声音怎么办?
A: 检查这些设置:
- 确保麦克风权限已开启
- 检查系统音频设备设置
- 尝试不同的sample_rate
- 确保enable参数为True
Q6:如何添加自定义说话人?
A: 按照以下步骤:
- 准备一段3-10秒的清晰录音(WAV格式)
- 将录音文件命名为"说话人名称_prompt.wav"
- 放到
ComfyUI/models/TTS/Step-Audio-speakers/文件夹 - 编辑同文件夹下的
speakers_info.json文件 - 添加新的说话人信息,格式如:
"说话人名称": "录音中说的文字"
Q7:支持哪些音频格式?
A:
- 输入:WAV、MP3、FLAC等常见格式
- 输出:WAV格式,采样率22050Hz
- 录音:WAV格式,可选16000/44100/48000Hz
6. 高级使用技巧
6.1 批量生成语音
如果你要生成很多段语音,建议:
- 把unload_model设为False
- 准备好所有文本
- 逐个生成,最后一个再设unload_model为True
6.2 情感标签组合
可以组合多个标签,例如:
- custom_mark填入"(温柔)(慢速1)"
- 或者"(高兴1)(粤语)"
6.3 长文本处理
对于很长的文本:
- 按句子分段
- 每段单独生成
- 后期拼接音频
6.4 音质优化
- 使用48000Hz采样率录音
- 在安静环境中录制
- 使用专业麦克风
- 录音后可以用音频软件进一步处理
7. 故障排除
7.1 模型加载失败
- 检查模型文件是否完整下载
- 确认文件夹结构正确
- 重启ComfyUI
7.2 CUDA内存错误
- 减小batch size
- 启用unload_model
- 关闭其他占用GPU的程序
7.3 音频输出异常
- 检查音频播放设备
- 尝试不同的采样率
- 确认音频文件没有损坏
8. 总结
这个插件就像给ComfyUI装了一个专业的配音工作室!无论你是想做视频配音、制作有声读物,还是想玩声音克隆,都能轻松搞定。记住几个要点:
- 选对声音:根据内容选择合适的说话人
- 调好参数:temperature和do_sample影响自然度
- 用好标签:emotion和language让声音更生动
- 管好内存:合理使用unload_model参数
- 录音质量:声音克隆的关键是高质量录音
现在你已经是Step Audio TTS的专家了!赶紧去试试让电脑用你的声音说话吧!🎉