1. 插件简介
GitHub地址: https://github.com/Burgstall-labs/ComfyUI-BS_Kokoro-onnx
ComfyUI-BS_Kokoro-onnx 是一个专门用来把文字变成语音的插件,它就像一个会说话的机器人助手。想象一下,你在手机上用语音助手的感觉,这个插件就是把你写的文字"念"出来,而且还能选择不同的声音!
这个插件能给我们带来什么? - 把任何文字转换成真人般的语音 - 可以选择不同的声音角色(男声、女声、不同口音) - 生成高品质的音频文件 - 特别适合制作视频配音、有声读物、语音提示等
2. 如何安装
方法一:手动安装(推荐)
- 打开文件夹
- 找到你的ComfyUI安装文件夹
-
进入
custom_nodes文件夹(就像进入一个专门放工具的工具箱) -
下载插件
bash git clone https://github.com/Burgstall-labs/ComfyUI-BS_Kokoro-onnx -
安装依赖
bash cd ComfyUI-BS_Kokoro-onnx pip install -r requirements.txt -
下载模型文件
- 需要下载两个重要文件(就像下载字典一样,让软件知道怎么发音)
- 把这两个文件放到
/custom_nodes/ComfyUI-BS-Kokoro-onnx/文件夹里
方法二:通过ComfyUI管理器
目前这个插件还没有加入到ComfyUI管理器中,所以请用方法一安装。
3. 节点详细解析
3.1 Kokoro TTS 节点 - 文字转语音器
这是插件的核心节点,就像一个"会说话的打字机"。你输入文字,它就能用选定的声音把文字读出来。
3.2 参数详解
| 参数名 (界面显示) | 参数名 (代码里) | 参数类型 | 建议值 | 通俗解释 | 专业解释 | 使用举例 |
|---|---|---|---|---|---|---|
| 文本内容 | text | 多行文本 | 任意想要转换的文字 | 就像在聊天软件里打字一样,输入你想让它说的话 | 支持多行文本输入,用于指定需要转换为语音的文本内容 | 输入"大家好,欢迎来到我的频道",它就会把这句话说出来 |
| 说话人 | speaker | 下拉选择 | af_sarah(默认) | 选择谁来说话,就像选择男主播还是女主播一样 | 选择用于生成语音的声音模型,不同speaker具有不同的音色特征 | 选择"af_sarah"会是女声,"am_adam"会是男声 |
可选择的声音角色:
- af_sarah - 女声,温和亲切
- am_adam - 男声,磁性稳重
- bf_emma - 女声,年轻活泼
- 还有其他多种声音选择
3.3 输出参数
| 输出名称 | 输出类型 | 说明 |
|---|---|---|
| 音频 | AUDIO | 生成的音频文件,可以直接播放或保存 |
输出的音频包含: - 音频波形 - 就像录音机录下的声音信号 - 采样率 - 决定音质好坏的数字,数值越高音质越好
4. 使用技巧和建议
文本输入技巧
- 标点符号很重要:句号会产生停顿,问号会有疑问语调
- 分段输入:长文本可以分成多段,每段单独处理
- 避免特殊字符:尽量使用常见的中英文字符
声音选择建议
- 内容匹配:正式内容选择成熟声音,轻松内容选择年轻声音
- 测试对比:同一段文字用不同声音生成,选择最合适的
- 保持一致:同一项目建议使用相同的声音角色
质量优化
- 文本长度:建议单次输入不超过500字,避免内存占用过大
- 语速控制:通过标点符号控制语速和停顿
- 后期处理:可以配合音频处理节点进行降噪、音量调整等
5. 常见问题解答
Q1:安装后找不到节点?
A1: 重启ComfyUI,并检查是否正确安装了所有依赖文件。
Q2:生成的音频没有声音?
A2: 检查是否下载了模型文件,并确保文件放在正确的位置。
Q3:某些文字发音不准确?
A3: 可以尝试: - 调整文本的写法(比如数字写成中文) - 添加标点符号帮助断句 - 选择不同的声音角色
Q4:生成速度很慢?
A4: - 检查电脑配置,确保有足够的内存 - 减少单次输入的文本长度 - 关闭其他占用内存的程序
Q5:支持中文吗?
A5: 根据模型支持情况,主要支持英文,中文支持可能有限。
6. 工作流程示例
基础语音生成流程
- 添加"Kokoro TTS"节点
- 在"文本内容"框输入要转换的文字
- 选择合适的"说话人"
- 连接到音频预览或保存节点
- 运行工作流程
高级应用场景
- 视频配音:配合视频节点制作有声视频
- 多语言内容:使用不同声音角色制作多语言版本
- 互动应用:结合文本生成节点制作动态语音内容
7. 注意事项
- 模型文件:确保下载完整的模型文件,文件较大需要耐心等待
- 版权问题:生成的语音仅供个人学习使用,商业用途需注意版权
- 资源占用:语音生成需要较多内存,建议在性能较好的设备上使用
- 更新维护:这是作者的第一个开源项目,欢迎反馈和贡献
8. 扩展应用
配合其他节点使用
- 音频处理节点:对生成的语音进行后期处理
- 视频合成节点:制作有声视频内容
- 文本生成节点:自动生成文本并转换为语音
创意应用场景
- 制作播客节目
- 生成语音教程
- 创建有声小说
- 制作多媒体演示
这个插件虽然功能专一,但在文字转语音的应用场景中非常实用。配合ComfyUI的其他节点,可以创造出许多有趣的应用!