ComfyUI-UVR5 音频分离插件 - 超详细小白教程
1. 插件简介
插件原地址: https://github.com/AIFSH/ComfyUI-UVR5
这个插件就像一个超级厉害的音频魔法师!它能帮你把一首完整的歌曲分成两部分:
- 人声部分:只有歌手唱歌的声音,就像卡拉OK的原唱版本
- 伴奏部分:只有背景音乐,就像卡拉OK的伴奏版本
想象一下,你有一首喜欢的歌,但你想要:
- 制作卡拉OK伴奏来练歌
- 提取干净的人声来做音频处理
- 去除歌曲中的回声和混响
- 分析歌曲的音乐编曲
这个插件就能帮你实现这些需求!它基于著名的 UVR5(Ultimate Vocal Remover)技术,就像有一双神奇的耳朵,能精确地把人声和音乐分开。
2. 如何安装
前置要求
首先需要安装 ffmpeg(这是一个音频处理工具,就像音频界的瑞士军刀):
Windows 用户:
- 下载并安装 WingetUI
- 用 WingetUI 搜索并安装 ffmpeg
Mac/Linux 用户:
# Mac 用户
brew install ffmpeg
# Linux 用户
apt update
apt install ffmpeg
插件安装
方法一:使用 ComfyUI Manager(推荐新手)
- 打开 ComfyUI
- 点击右下角的 "Manager" 按钮
- 在搜索框里输入 "UVR5"
- 找到这个插件,点击安装
- 重启 ComfyUI
方法二:手动安装
- 打开你的 ComfyUI 安装文件夹
- 进入
custom_nodes文件夹 - 在这里打开命令行
- 输入命令:
git clone https://github.com/AIFSH/ComfyUI-UVR5.git
cd ComfyUI-UVR5
pip install -r requirements.txt
- 重启 ComfyUI
安装成功后,你就能在节点列表的 "AIFSH_UVR5" 分类下找到相关节点了!
3. 节点详细解析
3.1 LoadAudioPath 节点 - 音频文件加载器
这个节点就像一个音频文件管理员,它能帮你从电脑里选择要处理的音频文件。就像你在音乐播放器里选歌一样简单!
节点功能:
- 从 ComfyUI 的输入文件夹中选择音频文件
- 支持多种音频格式(wav、mp3、flac、m4a)
- 提供文件上传功能
3.2 LoadAudioPath 节点参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| audio | audio | 下拉选择音频文件 | 根据需要选择 | 选择你要处理的音频文件,就像在音乐播放器里选歌 | 从输入目录中选择音频文件路径 | 选择你上传的"我的歌.mp3"文件 |
| choose audio file to upload | upload | 按钮 | 点击上传 | 点击这个按钮可以从电脑里上传新的音频文件 | 文件上传控件,支持音频文件上传 | 点击按钮,选择电脑里的音频文件上传 |
3.3 UVR5 Node 节点 - 音频分离大师
这个节点是整个插件的核心,就像一个专业的音频工程师!它能使用不同的模型来分离音频,每个模型都有自己的特长,就像不同的工具有不同的用途。
节点功能:
- 使用AI模型分离人声和伴奏
- 支持多种分离模型
- 可以调节分离的强度
- 输出两个音频文件:人声和伴奏
3.4 UVR5 Node 节点参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| audio | audio | AUDIOPATH类型 | 连接LoadAudioPath | 这是要处理的音频文件,就像给师傅一首歌让他分离 | 输入的音频文件路径 | 把LoadAudioPath的输出连接到这里 |
| model | model | 下拉选择模型 | HP5-主旋律人声vocals+其他instrumentals.pth | 选择分离模型,就像选择不同的工具来干活 | 选择用于音频分离的AI模型 | 一般歌曲用HP5,去回声用VR-DeEcho系列 |
| agg | agg | 整数滑块,0-20 | 10 | 分离强度,数字越大分离越彻底,就像调节音量大小 | 分离算法的激进程度参数 | 人声不干净调高到15,伴奏有人声调低到5 |
| format0 | format0 | 下拉选择格式 | wav | 输出音频的格式,就像选择保存照片是jpg还是png | 输出音频文件的格式 | wav质量最好,mp3文件最小 |
模型详细说明:
| 模型名称 | 适用场景 | 通俗解释 |
|---|---|---|
| HP5-主旋律人声vocals+其他instrumentals.pth | 流行歌曲 | 最常用的模型,适合大部分歌曲,分离效果均衡 |
| HP5_only_main_vocal.pth | 只要主唱 | 专门提取主唱人声,适合有和声的歌曲 |
| HP2_all_vocals.pth | 所有人声 | 提取所有人声包括和声,适合合唱歌曲 |
| HP2-人声vocals+非人声instrumentals.pth | 人声伴奏分离 | 基础的人声伴奏分离,效果中等 |
| HP3_all_vocals.pth | 高质量人声 | 高质量人声提取,适合对人声要求高的场景 |
| VR-DeEchoAggressive.pth | 强力去回声 | 强力去除回声和混响,适合录音环境不好的音频 |
| VR-DeEchoDeReverb.pth | 去回声去混响 | 同时去除回声和混响,让声音更干净 |
| VR-DeEchoNormal.pth | 普通去回声 | 温和地去除回声,保持音质 |
| onnx_dereverb_By_FoxJoy | 专业去混响 | 专门去除混响效果,让声音更清晰 |
3.5 PreViewAudio 节点 - 音频预览器
这个节点就像一个音频播放器,让你可以直接在 ComfyUI 里听处理后的音频效果,不用跑到别的软件里去听。
节点功能:
- 在界面上直接播放音频
- 支持音频控制(播放、暂停、进度条)
- 可以保存和下载音频
3.6 PreViewAudio 节点参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| audio | audio | AUDIOPATH类型 | 连接UVR5输出 | 要预览的音频文件,就像给播放器一首歌 | 输入的音频文件路径 | 把UVR5的人声或伴奏输出连接到这里 |
4. 使用技巧和建议
4.1 新手入门技巧
第一次使用建议:
- 先用一首简单的流行歌曲测试
- 使用默认的 HP5 模型
- agg 参数先用默认值 10
- 输出格式选择 wav(质量最好)
常用工作流程:
LoadAudioPath → UVR5 Node → PreViewAudio
↓
PreViewAudio
4.2 不同场景的最佳设置
场景1:制作卡拉OK伴奏
- model: "HP5-主旋律人声vocals+其他instrumentals.pth"
- agg: 12-15(让人声分离更彻底)
- format0: "wav"
- 主要使用伴奏输出
场景2:提取干净人声
- model: "HP5_only_main_vocal.pth"
- agg: 8-10(保持人声自然)
- format0: "wav"
- 主要使用人声输出
场景3:去除录音回声
- model: "VR-DeEchoNormal.pth"
- agg: 10-12
- format0: "wav"
- 适合处理录音质量不好的音频
场景4:处理合唱歌曲
- model: "HP2_all_vocals.pth"
- agg: 10
- format0: "wav"
- 能保留所有人声包括和声
4.3 参数调节技巧
agg 参数使用指南:
- 0-5:温和分离,保持音质,但可能分离不彻底
- 6-10:平衡分离,适合大部分情况
- 11-15:强力分离,分离更彻底但可能影响音质
- 16-20:极限分离,可能产生音质损失
模型选择技巧:
- 不知道选什么就用 HP5 系列
- 想要更干净的人声用 HP5_only_main_vocal
- 录音有回声问题用 VR-DeEcho 系列
- 需要处理和声用 HP2_all_vocals
5. 常见问题解答
Q1: 为什么分离后的人声还有背景音乐?
A:
- 尝试增加 agg 参数到 12-15
- 换用 HP5_only_main_vocal 模型
- 有些歌曲的人声和伴奏混合得太紧密,完全分离很困难
Q2: 为什么分离后的伴奏还有人声?
A:
- 增加 agg 参数
- 确保使用了正确的模型
- 有些歌曲的人声处理过(比如加了和声),分离难度较大
Q3: 处理后的音质变差了怎么办?
A:
- 降低 agg 参数到 8 以下
- 使用 wav 格式输出
- 尝试不同的模型
- 原始音频质量也会影响结果
Q4: 支持哪些音频格式?
A:
- 输入:wav、mp3、flac、m4a
- 输出:wav、flac、mp3、m4a
- 建议使用 wav 格式获得最佳质量
Q5: 处理时间很长怎么办?
A:
- 这是正常现象,AI 处理需要时间
- 长音频需要更多时间
- 确保电脑有足够的内存和显卡性能
Q6: 模型下载失败怎么办?
A:
- 检查网络连接
- 模型会自动从 Hugging Face 下载
- 可能需要科学上网
- 耐心等待,模型文件比较大
6. 实用案例演示
案例1:制作卡拉OK伴奏
需求: 把一首流行歌曲制作成卡拉OK伴奏
工作流程:
- LoadAudioPath:选择歌曲文件
- UVR5 Node:
- model: "HP5-主旋律人声vocals+其他instrumentals.pth"
- agg: 12
- format0: "wav"
- PreViewAudio:连接伴奏输出,预览效果
效果: 得到一个几乎没有人声的伴奏文件
案例2:提取人声做音频处理
需求: 从歌曲中提取干净的人声用于后续处理
工作流程:
- LoadAudioPath:选择歌曲文件
- UVR5 Node:
- model: "HP5_only_main_vocal.pth"
- agg: 10
- format0: "wav"
- PreViewAudio:连接人声输出,检查质量
效果: 得到一个干净的人声文件
案例3:去除录音回声
需求: 处理一个有回声问题的录音
工作流程:
- LoadAudioPath:选择有回声的录音
- UVR5 Node:
- model: "VR-DeEchoNormal.pth"
- agg: 10
- format0: "wav"
- PreViewAudio:预听处理效果
效果: 回声明显减少,声音更清晰
7. 进阶使用技巧
7.1 批量处理技巧
虽然这个插件主要是单文件处理,但你可以:
- 保存工作流程模板
- 快速切换不同的音频文件
- 使用相同的参数设置处理多个文件
7.2 质量优化建议
- 输入音频质量:使用高质量的原始音频
- 格式选择:处理过程中都用 wav 格式
- 参数调节:根据具体音频调整 agg 参数
- 模型选择:针对不同类型音频选择合适模型
7.3 与其他节点配合使用
这个插件可以和其他音频处理节点配合:
- 音频增强节点
- 音频格式转换节点
- 音频效果处理节点
8. 技术原理简单解释
这个插件使用了深度学习技术,就像训练了一个超级聪明的"音频分析师":
- 训练过程:用大量的歌曲和对应的人声、伴奏数据训练AI
- 分离原理:AI学会了识别哪些频率和特征属于人声,哪些属于乐器
- 模型差异:不同模型针对不同类型的音频进行了专门优化
9. 总结
ComfyUI-UVR5 插件是一个功能强大的音频分离工具,虽然只有3个节点,但能满足大部分音频分离需求:
主要优势:
- 多种专业模型可选
- 分离效果出色
- 操作简单直观
- 支持多种音频格式
适合使用的场景:
- 制作卡拉OK伴奏
- 提取人声素材
- 去除录音回声
- 音频后期处理
- 音乐分析研究
记住这几个要点:
- 选择合适的模型很重要
- agg 参数需要根据具体情况调节
- 输入音频质量影响输出效果
- 不同类型的音频可能需要不同的设置
- 耐心等待处理完成,AI 需要时间
希望这个教程能帮助你轻松掌握这个实用的音频分离插件!记住多实践,每种音频都可能需要不同的设置,熟能生巧。