ComfyUI-KokoroTTS 插件保姆级教程
1. 插件简介
ComfyUI-KokoroTTS 是一个让文字变成语音的神奇插件!这个插件就像一个会说话的机器人,你输入文字,它就能用不同的声音帮你读出来。
插件原地址: https://github.com/benjiyaya/ComfyUI-KokoroTTS
这个插件能给我们带来什么效果呢?
- 把任何文字转换成自然的人声朗读
- 支持多种不同的声音选择,有男声、女声,还有不同的口音
- 可以处理多行文字,甚至是长篇文章
- 生成的语音质量很高,听起来很自然
想象一下,这就像给你的电脑安装了一个专业的播音员,随时可以帮你朗读任何内容!
2. 如何安装
方法一:自动安装(推荐小白用户)
- 打开你的 ComfyUI 程序
- 找到"插件管理"功能
- 搜索"KokoroTTS"
- 点击安装,等待完成
方法二:手动安装
- 找到你的 ComfyUI 安装目录
- 进入
custom_nodes文件夹 - 下载插件文件并解压到这个文件夹里
- 重启 ComfyUI
重要!下载语音模型文件
安装完插件后,你还需要下载"大脑"文件,这样插件才能工作:
- 在 ComfyUI 的
models文件夹里创建一个叫Kokorotts的新文件夹 - 去这个网址下载文件:https://huggingface.co/thewh1teagle/Kokoro/tree/main
- 下载两个文件:
kokoro-v0_19.onnx(这是主要的"大脑"文件)voices.json(这是声音配置文件)
- 把这两个文件放到刚才创建的
Kokorotts文件夹里
3. 节点详解
3.1 Kokoro TextToSpeech 节点 - 文字变声音的魔法盒
这个节点就像一个神奇的翻译机,不过它不是把中文翻译成英文,而是把文字"翻译"成声音。你给它文字,它就给你语音。
3.2 参数详解
| 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 文本内容 | 任意文字 | 这里输入你想让电脑读出来的文字,就像给播音员递台词一样 | 文本输入参数,支持多行文本和特殊字符 | 输入"你好世界",电脑就会用选定的声音读出"你好世界" |
| speaker | speaker | 声音选择 | af_sarah | 这是选择播音员的地方,不同的播音员有不同的声音特色 | 语音合成所使用的说话人模型选择 | 选择"af_sarah"会用美国女性莎拉的声音朗读 |
3.3 输入输出说明
输入端口:
- text(文字输入):就像给播音员递台词纸,这里连接你想转换成声音的文字
- speaker(声音选择):选择用哪个播音员的声音来朗读
输出端口:
- audio(音频输出):生成的语音文件,可以连接到其他音频处理节点
3.4 可选择的声音类型
这个插件提供了多种声音选择,就像电视台有不同的主持人一样:
| 声音代码 | 声音描述 | 适合场景 |
|---|---|---|
| af | 美国女性(标准版) | 日常朗读、新闻播报 |
| af_sarah | 美国女性莎拉 | 温柔的故事朗读 |
| af_bella | 美国女性贝拉 | 活泼的内容朗读 |
| af_nicole | 美国女性妮可 | 专业的商务朗读 |
| af_sky | 美国女性天空 | 清新的内容朗读 |
| am_adam | 美国男性亚当 | 正式的公告朗读 |
| am_michael | 美国男性迈克尔 | 磁性的声音朗读 |
| bf_emma | 英国女性艾玛 | 优雅的英式朗读 |
| bf_isabella | 英国女性伊莎贝拉 | 经典的英式朗读 |
| bm_george | 英国男性乔治 | 绅士的英式朗读 |
| bm_lewis | 英国男性路易斯 | 年轻的英式朗读 |
4. 使用技巧和建议
4.1 文字输入技巧
- 标点符号很重要:句号会让声音有停顿,逗号会有短暂的停顿
- 分行输入:长文章建议分段输入,这样生成的语音更自然
- 避免特殊符号:尽量不要使用@、#、$等特殊符号
4.2 声音选择技巧
- 内容匹配:严肃内容用男声,温柔内容用女声
- 听众考虑:给小朋友听的选择活泼的声音
- 时长考虑:长文章建议选择不太个性化的声音,听起来不容易疲劳
4.3 工作流程建议
- 先用短文字测试声音效果
- 确定满意的声音后再输入长文字
- 生成的音频可以连接到音频播放节点直接试听
- 也可以连接到音频保存节点保存成文件
5. 常见问题解答
Q1:为什么插件装好了但是找不到节点?
答: 这通常是因为没有下载模型文件。请确保:
- 已经创建了
models/Kokorotts文件夹 - 下载了
kokoro-v0_19.onnx和voices.json两个文件 - 重启了 ComfyUI
Q2:生成的语音没有声音或者很奇怪?
答: 检查以下几点:
- 输入的文字是否正确
- 选择的声音是否存在
- 文字中是否有太多特殊符号
Q3:可以输入中文吗?
答: 这个插件主要针对英文设计,中文支持可能不够完善。如果需要中文语音合成,建议寻找专门的中文TTS插件。
Q4:生成的音频文件在哪里?
答: 音频是在内存中生成的,如果想保存成文件,需要连接音频保存节点。
Q5:为什么有时候会报错?
答: 常见原因:
- 模型文件路径不正确
- 输入的文字为空
- 选择的声音不存在
- 内存不足
6. 进阶使用建议
6.1 与其他节点配合使用
- 与图像节点配合:可以为生成的图像添加语音解说
- 与视频节点配合:为视频添加旁白
- 与音频处理节点配合:对生成的语音进行后期处理
6.2 批量处理技巧
如果需要处理多个文本,可以:
- 使用循环节点自动处理多个文本
- 设置不同的声音来区分不同的角色
- 将多个音频合并成一个完整的音频文件
6.3 性能优化
- 长文本建议分段处理
- 避免同时处理太多文本
- 定期清理生成的临时文件
7. 故障排除指南
7.1 安装问题
如果安装过程中遇到问题:
- 检查网络连接
- 确认 ComfyUI 版本兼容性
- 查看错误日志信息
7.2 使用问题
如果使用过程中遇到问题:
- 重启 ComfyUI
- 检查模型文件是否完整
- 尝试更换不同的声音
7.3 性能问题
如果运行缓慢:
- 检查电脑内存使用情况
- 关闭其他不必要的程序
- 考虑分批处理大量文本
这个插件就像给你的 ComfyUI 加装了一个专业的播音员,让你的创作更加生动有趣!记住,多尝试不同的声音和文字组合,你会发现更多有趣的用法。