CosyVoice-ComfyUI 插件 - 保姆级教程
1. 插件简介
插件地址: https://github.com/AIFSH/CosyVoice-ComfyUI
这个插件就像一个神奇的"AI配音师"。你可以把它想象成一个超级智能的语音合成工厂,能够把文字变成各种不同声音的语音。就像有一个万能的配音演员,可以模仿任何人的声音,说任何语言,甚至可以根据你的描述调整说话的风格和情感。
这个插件能给我们带来什么效果:
- 🎤 文字转语音魔法师:把任何文字变成自然流畅的语音
- 🎭 声音克隆器:只需要3秒钟的音频样本就能复制任何人的声音
- 🌍 多语言翻译配音:可以用中文声音说英文,用英文声音说中文
- 🎬 智能配音导演:可以根据文字描述控制说话的情感和风格
- 📺 视频配音助手:支持字幕文件,自动为视频配音
- 🎵 语速调节器:可以调节说话的快慢,适应不同需求
就像拥有一个专业的配音工作室,能够为任何内容制作高质量的语音,无论是有声书、视频配音还是多语言翻译。
2. 如何安装
前置要求
需要先安装 FFmpeg(音频处理工具):
Windows 用户:
- 推荐使用 WingetUI 自动安装 FFmpeg
- 或者手动下载 FFmpeg 并添加到系统路径
Linux 用户:
apt update
apt install ffmpeg
Mac 用户:
brew install ffmpeg
方法一:Git 命令安装(推荐)
cd ComfyUI/custom_nodes
git clone https://github.com/AIFSH/CosyVoice-ComfyUI.git
cd CosyVoice-ComfyUI
pip install -r requirements.txt
方法二:手动下载
- 打开插件地址:https://github.com/AIFSH/CosyVoice-ComfyUI
- 点击绿色的 "Code" 按钮
- 选择 "Download ZIP"
- 解压下载的文件
- 把解压后的文件夹复制到
ComfyUI/custom_nodes/目录下 - 在插件文件夹中运行:
pip install -r requirements.txt - 重启 ComfyUI
注意事项
- 模型文件会从 ModelScope 自动下载
- 首次使用时需要下载较大的模型文件
- 建议有良好的网络连接
3. 节点详细解析
3.1 TextNode 节点
这个节点是干嘛的?
这个节点就像一个"文字输入器"。你可以把它想象成一个专门用来输入要转换成语音的文字的记事本。它支持多行文字输入,可以输入长篇文章、对话或者任何你想要转换成语音的内容。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| text | text | 字符串 | 任意文字 | 这是"文字输入框",你可以在这里写任何想要转成语音的内容 | 多行文本输入,支持动态提示 | 输入"你好,欢迎使用AI语音合成"等任何文字 |
3.2 CosyVoiceNode 节点
这个节点是干嘛的?
这个节点就像一个"超级配音演员"。你可以把它想象成一个拥有多种技能的配音师,可以用预设的声音说话,可以模仿别人的声音,可以跨语言配音,还可以根据你的描述调整说话风格。它是整个插件的核心,负责把文字真正转换成语音。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| tts_text | tts_text | TEXT类型 | 连接TextNode | 这是"要说的话",连接文字输入节点 | 文本转语音的输入文本 | 连接TextNode节点的输出 |
| speed | speed | 浮点数 | 1.0 | 这是"语速调节器",就像调节播放速度一样 | 语音播放速度倍率 | 1.0是正常速度,1.5是1.5倍速,0.8是慢速 |
| inference_mode | inference_mode | 选择列表 | 预训练音色 | 这是"配音模式选择器",选择用什么方式配音 | 推理模式选择 | 预训练音色用内置声音,3s极速复刻模仿别人声音 |
| sft_dropdown | sft_dropdown | 选择列表 | 中文女 | 这是"预设声音选择器",从内置声音中选择 | 预训练音色选择 | 中文女、中文男、英文女、日语男等 |
| seed | seed | 整数 | 42 | 这是"随机种子",控制生成的随机性 | 随机数种子 | 相同种子产生相同结果,不同种子产生变化 |
| prompt_text | prompt_text | TEXT类型 | 可选 | 这是"模仿样本的文字",告诉AI样本音频说的是什么 | 提示音频对应的文本 | 当使用3s极速复刻时,输入样本音频的文字内容 |
| prompt_wav | prompt_wav | AUDIO类型 | 可选 | 这是"声音样本",要模仿的声音录音 | 提示音频文件 | 上传3秒以上的音频文件作为声音模板 |
| instruct_text | instruct_text | TEXT类型 | 可选 | 这是"风格指令",描述想要的说话风格 | 自然语言控制指令 | 输入"温柔的女声"、"激动的男声"等描述 |
3.3 CosyVoiceDubbingNode 节点
这个节点是干嘛的?
这个节点就像一个"专业配音导演"。你可以把它想象成一个专门为视频或音频内容进行配音的智能助手。它可以读取字幕文件,然后为每一句话生成对应的语音,还能保持时间同步,就像专业的配音工作室一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| tts_srt | tts_srt | SRT类型 | 字幕文件 | 这是"配音脚本",包含要配音的所有文字和时间 | 目标语言字幕文件 | 连接LoadSRT节点,加载要配音的字幕 |
| prompt_wav | prompt_wav | AUDIO类型 | 音频文件 | 这是"原声参考",用来模仿的声音样本 | 参考音频文件 | 上传原视频的音频或想要模仿的声音 |
| language | language | 选择列表 | 语言标记 | 这是"目标语言选择器",选择要生成什么语言的语音 | 目标语言标识符 | < |
| if_single | if_single | 布尔值 | True | 这是"单人配音开关",决定是单人还是多人配音 | 是否单人配音模式 | True表示一个人配所有角色,False表示多角色配音 |
| seed | seed | 整数 | 42 | 这是"随机种子",控制配音的随机性 | 随机数种子 | 固定种子确保结果可重现 |
| prompt_srt | prompt_srt | SRT类型 | 可选 | 这是"参考脚本",原音频对应的字幕文件 | 参考音频对应的字幕 | 如果有原音频的字幕,可以提供更好的效果 |
3.4 LoadSRT 节点
这个节点是干嘛的?
这个节点就像一个"字幕文件管理器"。你可以把它想象成一个专门用来加载和管理字幕文件的工具。它会扫描输入文件夹中的所有字幕文件,让你可以选择要使用的字幕文件进行配音。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| srt | srt | 选择列表 | 可用文件 | 这是"字幕文件选择器",从输入文件夹中选择字幕文件 | SRT或TXT格式文件选择 | 选择放在input文件夹中的.srt或.txt字幕文件 |
4. 使用技巧和建议
4.1 配音模式选择指南
- 预训练音色:适合快速生成,使用内置的高质量声音
- 3s极速复刻:适合模仿特定人的声音,需要3秒以上的音频样本
- 跨语种复刻:适合用一种语言的声音说另一种语言
- 自然语言控制:适合需要特定情感或风格的配音
4.2 音频样本准备技巧
- 时长要求:音频样本至少3秒,建议5-10秒
- 质量要求:清晰无噪音,单人说话
- 内容建议:选择发音清晰、情感自然的片段
- 格式支持:支持常见音频格式(wav、mp3等)
4.3 字幕文件制作
- 格式要求:支持SRT和TXT格式
- 时间同步:SRT格式需要包含准确的时间戳
- 多角色标记:多人配音时在每句话前加角色标识(如"A:你好")
- 文件编码:建议使用UTF-8编码避免乱码
4.4 语速和质量优化
- 语速调节:1.0是正常速度,根据需要微调
- 种子设置:固定种子确保结果一致性
- 分段处理:长文本建议分段处理,提高质量
4.5 工作流程建议
- 准备素材:文字内容、音频样本、字幕文件
- 选择模式:根据需求选择合适的配音模式
- 参数调试:先用短文本测试参数效果
- 批量处理:确定参数后进行完整配音
5. 常见问题解答
Q1:为什么首次使用很慢?
A: 首次使用需要下载模型:
- 模型文件较大(几GB),需要时间下载
- 建议在网络良好时进行首次运行
- 模型下载完成后后续使用会很快
- 可以提前手动下载模型到指定目录
Q2:3s极速复刻效果不好怎么办?
A: 优化建议:
- 确保音频样本质量高,无背景噪音
- 音频时长建议5-10秒,不要太短
- prompt_text要准确对应音频内容
- 选择发音清晰、语调自然的音频片段
Q3:跨语种复刻听起来不自然?
A: 改进方法:
- 选择语音特征明显的音频样本
- 避免使用带有强烈口音的样本
- 可以尝试调整语速参数
- 确保目标语言文本准确无误
Q4:配音时间不同步怎么办?
A: 同步优化:
- 检查SRT字幕文件的时间戳是否准确
- 调整语速参数使配音时长匹配
- 可以手动调整字幕时间戳
- 使用专业字幕编辑软件制作字幕
Q5:支持哪些语言?
A: 语言支持:
- 中文(普通话、粤语)
- 英文
- 日语
- 韩语
- 支持跨语言配音(如用中文声音说英文)
6. 实际应用场景
6.1 有声书制作
将文字书籍转换为有声读物,可以选择不同的声音风格。
6.2 视频配音
为视频内容添加配音,支持多语言和多角色。
6.3 语言学习
制作语言学习材料,用标准发音朗读课文。
6.4 广告配音
为广告、宣传片等商业内容制作专业配音。
6.5 播客制作
为播客节目制作开场白、广告等固定内容的配音。
7. 高级使用技巧
7.1 多角色配音工作流程
- 准备多个角色的音频样本
- 在字幕中标记角色(A:、B:等)
- 设置if_single为False
- 系统会自动为不同角色使用对应的声音
7.2 情感控制技巧
- 使用自然语言控制模式
- 在instruct_text中详细描述情感
- 如"温柔的女声,带有关怀的语调"
- 可以描述年龄、性格、情绪等特征
7.3 质量优化策略
- 选择高质量的音频样本
- 使用合适的语速设置
- 分段处理长文本
- 多次测试找到最佳参数组合
7.4 批量处理技巧
- 准备标准化的字幕格式
- 建立参数模板
- 使用固定的种子值
- 建立质量检查流程
8. 技术要求和限制
8.1 硬件要求
- 显存:建议8GB以上显存
- 内存:建议16GB以上内存
- 存储:需要足够空间存储模型文件
- 网络:首次使用需要良好的网络下载模型
8.2 软件要求
- Python:3.10版本
- PyTorch:2.3.0+cu121或兼容版本
- FFmpeg:必须正确安装并可在命令行使用
- ComfyUI:最新版本
8.3 使用限制
- 音频样本需要至少3秒
- 支持的语言有限
- 模型文件较大,首次下载耗时
- 生成速度取决于硬件性能
总结: CosyVoice-ComfyUI 插件是一个功能强大的AI语音合成工具,支持多种配音模式和语言。通过合理的参数设置和素材准备,可以制作出高质量的语音内容,适用于各种配音和语音合成需求。
注意事项: 首次使用需要下载大量模型文件,建议在网络良好时进行。音频样本的质量直接影响配音效果,建议使用高质量、无噪音的音频文件。
推荐用途: 特别适合内容创作者、教育工作者、多媒体制作人员使用,可以大大提高语音内容制作的效率和质量。