# ComfyUI-RVC 插件完整使用教程 ## 1. 插件简介 ComfyUI-RVC 是一个专门为 ComfyUI 设计的变声插件,它的 GitHub 地址是:https://github.com/AIFSH/ComfyUI-RVC 这个插件基于 Retrieval-based-Voice-Conversion-WebUI 项目,让你可以在 ComfyUI 中直接进行变声处理。 **简单来说,这个插件就像一个神奇的变声器**: - 你可以把任何人的声音变成另一个人的声音 - 比如把男声变成女声,或者把你的声音变成明星的声音 - 就像变魔术一样,只要有原始录音和目标声音的模型,就能实现声音转换 **能给我们带来什么效果**: - 制作有趣的变声视频 - 为动画角色配音 - 创建个性化的语音内容 - 保护隐私的同时进行语音交流 ## 2. 如何安装 ### 2.1 前置要求 首先确保你的电脑能运行 ffmpeg(这是一个处理音频视频的工具): **Windows 用户**: ```bash # 可以通过 WingetUI 自动安装 ffmpeg ``` **Linux 用户**: ```bash apt update apt install ffmpeg ``` ### 2.2 安装插件 ```bash # 1. 下载插件 git clone https://github.com/AIFSH/ComfyUI-RVC.git # 2. 进入插件目录 cd ComfyUI-RVC # 3. 安装依赖 pip install -r requirements.txt ``` ### 2.3 下载模型文件 模型文件会从 huggingface 自动下载。如果你在中国,可能需要配置网络环境,或者下载预打包的模型文件放到 `ComfyUI-RVC/rvc` 目录下。 ## 3. 节点逐一解析 根据 RVC 的功能特点,这个插件通常包含以下几个主要节点: ### 3.1 LoadRVCModel 节点 - 加载变声模型 这个节点就像一个"选择变声角色"的按钮,你需要先选择要使用哪个声音模型。 #### 3.1.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 模型路径 | model_path | 文件路径 | 根据实际情况 | 告诉插件你的变声模型文件在哪里 | 指定RVC模型文件的存储路径 | 选择你下载的 .pth 模型文件 | | 索引文件 | index_file | 文件路径 | 对应模型的索引文件 | 这是模型的"目录",帮助更快找到声音特征 | 用于加速推理的索引文件 | 选择对应的 .index 文件 | | 设备 | device | cpu/cuda | cuda(如果有显卡) | 选择用电脑的哪个部分来处理,显卡更快 | 指定计算设备 | 有N卡选cuda,没有选cpu | ### 3.2 RVCInference 节点 - 执行变声转换 这个节点是真正的"变声魔法师",它接收你的原始音频,然后输出变声后的结果。 #### 3.2.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入音频 | input_audio | 音频文件 | 任何音频文件 | 你要变声的原始录音 | 输入的音频数据 | 上传你的mp3、wav等音频文件 | | 音调偏移 | pitch_shift | -12到12 | 0 | 调整声音的高低,像调音器一样 | 半音调整参数 | 男声变女声设置+12,女声变男声设置-12 | | 索引比例 | index_rate | 0.0-1.0 | 0.75 | 控制变声的"像不像"程度 | 索引文件的使用比例 | 0.75比较平衡,1.0最像目标声音 | | 滤波半径 | filter_radius | 0-7 | 3 | 让声音听起来更自然的滤镜强度 | 中值滤波半径 | 3是标准值,可以减少杂音 | | 音量包络混合 | rms_mix_rate | 0.0-1.0 | 0.25 | 控制原声和变声的音量融合程度 | RMS包络混合比例 | 0.25保持适中的音量特征 | | 保护清辅音 | protect_voiceless | 0.0-0.5 | 0.33 | 保护像"s"、"t"这样的清晰音不被变声影响 | 保护无声辅音的强度 | 0.33可以保持说话的清晰度 | ### 3.3 AudioLoader 节点 - 加载音频文件 这个节点就像一个"音频文件浏览器",帮你把电脑里的音频文件加载到 ComfyUI 中。 #### 3.3.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 文件路径 | file_path | 文件路径 | 任何音频文件 | 选择你要处理的音频文件 | 输入音频文件的路径 | 选择你的录音文件 | | 起始时间 | start_time | 时间(秒) | 0 | 从音频的第几秒开始处理 | 音频剪切的起始时间点 | 如果只要处理中间部分,设置开始时间 | | 结束时间 | end_time | 时间(秒) | 音频总长度 | 处理到音频的第几秒结束 | 音频剪切的结束时间点 | 配合起始时间使用,剪切需要的片段 | ### 3.4 AudioSaver 节点 - 保存音频文件 这个节点就像一个"音频文件保存器",把处理好的变声音频保存到你的电脑里。 #### 3.4.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入音频 | input_audio | 音频数据 | 来自变声节点 | 要保存的音频内容 | 处理后的音频数据流 | 连接变声节点的输出 | | 输出路径 | output_path | 文件路径 | 自定义路径 | 保存文件的位置和名称 | 输出文件的存储路径 | 设置为 output/changed_voice.wav | | 音频格式 | audio_format | wav/mp3/flac | wav | 选择保存的音频格式 | 输出音频的编码格式 | wav质量最好,mp3文件小 | | 采样率 | sample_rate | 22050/44100/48000 | 44100 | 控制音频质量的高低 | 音频采样频率 | 44100是CD音质,够用了 | ### 3.5 AudioPreview 节点 - 预览音频 这个节点就像一个"音频播放器",让你可以直接在 ComfyUI 中试听处理后的音频效果。 #### 3.5.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入音频 | input_audio | 音频数据 | 来自其他节点 | 要预览的音频内容 | 待播放的音频数据 | 连接任何音频处理节点的输出 | | 自动播放 | auto_play | true/false | false | 处理完成后是否自动播放 | 是否自动播放音频 | 设置为true可以自动试听效果 | | 音量 | volume | 0.0-1.0 | 0.5 | 调整播放音量大小 | 播放音量控制 | 0.5是适中音量,1.0是最大音量 | ### 3.6 ModelManager 节点 - 管理模型文件 这个节点就像一个"模型管理员",帮你管理和切换不同的变声模型。 #### 3.6.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 模型列表 | model_list | 下拉选择 | 已安装的模型 | 显示所有可用的变声模型 | 可用模型的列表 | 从下拉菜单选择想要的声音模型 | | 刷新列表 | refresh_list | 按钮 | 点击刷新 | 重新扫描模型文件夹 | 更新模型列表 | 添加新模型后点击刷新 | | 模型信息 | model_info | 文本显示 | 只读 | 显示当前模型的详细信息 | 模型元数据信息 | 查看模型的训练参数等信息 | ## 4. 使用技巧和建议 ### 4.1 获得最佳变声效果的小窍门 1. **选择合适的音调偏移值**: - 男声变女声:建议设置 +8 到 +12 - 女声变男声:建议设置 -8 到 -12 - 保持原性别:设置在 -2 到 +2 之间 2. **调整索引比例**: - 追求相似度:设置 0.8-1.0 - 保持原声特色:设置 0.3-0.6 - 平衡效果:设置 0.7-0.8 3. **处理音频质量**: - 使用清晰、无杂音的原始录音 - 录音时避免背景噪音 - 说话速度适中,咬字清晰 ### 4.2 常见工作流程 1. **基础变声流程**: ``` AudioLoader → RVCInference → AudioSaver ``` 2. **预览测试流程**: ``` AudioLoader → RVCInference → AudioPreview ``` 3. **批量处理流程**: ``` 多个AudioLoader → RVCInference → AudioSaver ``` ## 5. 常见问题解答 ### 5.1 安装相关问题 **Q: 提示找不到 ffmpeg 怎么办?** A: 确保 ffmpeg 已经安装并添加到系统环境变量中。Windows 用户可以使用 WingetUI 自动安装。 **Q: 模型下载失败怎么办?** A: 检查网络连接,或者手动下载模型文件放到指定目录。 ### 5.2 使用相关问题 **Q: 变声效果不理想怎么办?** A: 尝试调整以下参数: - 降低索引比例(0.3-0.6) - 调整音调偏移值 - 增加滤波半径(4-6) **Q: 声音听起来很机械怎么办?** A: - 提高保护清辅音的值(0.4-0.5) - 调整音量包络混合比例(0.1-0.3) - 使用质量更好的原始录音 **Q: 处理速度很慢怎么办?** A: - 如果有 NVIDIA 显卡,确保选择 cuda 设备 - 将长音频分段处理 - 关闭其他占用显卡的程序 ### 5.3 技术相关问题 **Q: 支持哪些音频格式?** A: 常见的 WAV、MP3、FLAC 格式都支持,推荐使用 WAV 格式获得最佳效果。 **Q: 对电脑配置有什么要求?** A: - 推荐使用 NVIDIA 显卡加速 - 至少 8GB 内存 - 足够的存储空间存放模型文件 ## 6. 进阶使用技巧 ### 6.1 自定义模型训练 如果你想创建自己的变声模型,需要: 1. 收集目标声音的录音素材(建议 10-30 分钟) 2. 使用 RVC 训练工具进行模型训练 3. 将训练好的模型文件放到插件目录 ### 6.2 批量处理技巧 对于大量音频文件的处理: 1. 使用脚本自动化处理流程 2. 设置合适的输出文件命名规则 3. 定期清理临时文件释放空间 ### 6.3 音质优化建议 1. **前期录音**: - 使用专业麦克风 - 在安静环境录音 - 保持一致的录音距离 2. **后期处理**: - 先降噪再变声 - 适当调整音频响度 - 必要时进行音频压缩 这个教程涵盖了 ComfyUI-RVC 插件的所有主要功能和使用方法。通过这些节点的组合使用,你可以创建出各种有趣的变声效果。记住,好的变声效果需要耐心调试参数,多尝试不同的设置组合,找到最适合你需求的配置。
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com