# ComfyUI_SongGeneration 插件完全保姆级教程 ## 1. 插件简介 **插件地址:** https://github.com/smthemex/ComfyUI_SongGeneration 这个插件是基于腾讯AI实验室的SongGeneration技术开发的,能够生成高质量的歌曲。简单来说,它就像一个超级厉害的音乐创作助手,你只需要输入一些文字描述或者歌词,它就能帮你生成完整的歌曲。 **这个插件能给我们带来什么效果?** - 把文字描述变成完整的歌曲(就像你说"我想要一首轻快的流行歌",它就能给你做出来) - 根据歌词生成对应的旋律和伴奏 - 生成不同风格的音乐(流行、摇滚、民谣等等) - 制作背景音乐和音效 **注意:** 这个插件需要显卡内存大于12G才能正常运行,就像开大型游戏需要好显卡一样。 ## 2. 如何安装 ### 2.1 基本安装步骤 1. **下载插件** - 打开你的ComfyUI安装目录 - 找到 `custom_nodes` 文件夹 - 在这个文件夹里打开命令行窗口 - 输入:`git clone https://github.com/smthemex/ComfyUI_SongGeneration.git` 2. **安装依赖库** ```bash pip install -r requirements.txt ``` 3. **特别注意(Windows用户)** - Windows平台最难装的是fairseq库,建议使用轮子安装 - 如果安装失败,需要手动下载并安装fairseq ### 2.2 下载模型文件 你需要下载这些模型文件(就像下载字体文件一样): **主要模型文件:** - 从腾讯的SongGeneration页面下载ckpt文件 - 下载htdemucs.pth文件 **文件放置位置:** ``` ComfyUI/models/SongGeneration/ ├── htdemucs.pth (150M) ├── ckpt/ (24.4G 整个文件夹) ├── encode-s12k.pt (3.68G) ├── prompt.pt (3M) ├── model_1rvq/ (全部文件) ├── model_septoken/ (全部文件) ├── models--lengyue233--content-vec-best/ (全部文件) ├── songgeneration_base/ (全部文件) └── vae/ (全部文件) ``` ## 3. 节点详细解析 ### 3.1 SongGeneration_Node - 主要歌曲生成节点 这个节点就像一个音乐工厂的主控制台,你在这里设置好所有参数,它就能给你生成歌曲。 #### 3.2 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 文本提示 | prompt | 文本输入 | "轻快的流行歌曲" | 告诉机器你想要什么样的歌 | 文本提示词,用于指导音乐生成的风格和内容 | 输入"悲伤的钢琴曲"就能生成伤感音乐 | | 歌曲长度 | duration | 数字 | 30 | 控制歌曲多长时间,单位是秒 | 生成音频的时长控制参数 | 设置60就是1分钟的歌 | | 采样率 | sample_rate | 数字 | 44100 | 音质好坏,数字越大音质越好 | 音频采样频率,影响音质 | 44100是CD音质,够用了 | | 音乐风格 | style | 下拉选择 | "pop" | 选择音乐类型,比如流行、摇滚等 | 音乐风格分类标签 | 选"rock"就是摇滚风格 | | 生成步数 | steps | 数字 | 50 | 生成质量,数字越大质量越好但越慢 | 扩散模型生成步数 | 20步很快但质量一般,100步慢但质量好 | | 随机种子 | seed | 数字 | -1 | 控制随机性,相同数字生成相同结果 | 随机数生成器种子 | 设置123每次都生成同样的歌 | | 温度 | temperature | 小数 | 0.8 | 创意程度,越高越有创意但越不稳定 | 生成随机性控制参数 | 0.5比较保守,1.2很有创意 | | 歌词输入 | lyrics | 文本输入 | 空 | 如果有歌词就填这里 | 歌词文本输入 | 填入"我爱你如春风十里"等歌词 | ### 3.3 SongGeneration_Loader - 模型加载节点 这个节点就像一个仓库管理员,负责把各种音乐生成工具准备好。 #### 3.4 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 模型路径 | model_path | 路径 | 自动检测 | 告诉程序模型文件在哪里 | 模型文件路径配置 | 一般不用改,程序会自动找到 | | 设备选择 | device | 下拉选择 | "auto" | 用CPU还是显卡,显卡更快 | 计算设备选择 | 有好显卡选"cuda",否则选"cpu" | | 精度模式 | precision | 下拉选择 | "fp16" | 计算精度,影响速度和质量 | 数值精度模式 | fp16快但稍微不准确,fp32慢但准确 | | 批次大小 | batch_size | 数字 | 1 | 一次生成几首歌 | 批量处理数量 | 设置2就是一次生成2首歌 | ### 3.5 SongGeneration_Preview - 预览播放节点 这个节点就像一个音乐播放器,让你能听到生成的歌曲效果。 #### 3.6 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 音频输入 | audio_input | 连接 | 从生成节点连接 | 接收生成的音频 | 音频数据输入接口 | 连接到SongGeneration_Node的输出 | | 播放控制 | play_control | 按钮 | 点击播放 | 控制播放和暂停 | 播放控制按钮 | 点击就能听到生成的歌曲 | | 音量控制 | volume | 滑条 | 0.5 | 调节播放音量大小 | 音量控制参数 | 0.0是静音,1.0是最大声 | ### 3.7 SongGeneration_Save - 保存节点 这个节点就像一个录音机的保存按钮,把生成的歌曲保存到你的电脑里。 #### 3.8 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 音频输入 | audio_input | 连接 | 从生成节点连接 | 接收要保存的音频 | 音频数据输入接口 | 连接到SongGeneration_Node的输出 | | 保存路径 | save_path | 路径 | "./output/" | 歌曲保存到哪个文件夹 | 文件保存路径 | 设置"D:/我的音乐/"保存到指定位置 | | 文件名 | filename | 文本 | "generated_song" | 给保存的歌曲起个名字 | 输出文件名 | 写"我的第一首歌"就是文件名 | | 格式选择 | format | 下拉选择 | "wav" | 保存什么格式的音频文件 | 音频文件格式 | wav质量好,mp3文件小 | | 质量设置 | quality | 数字 | 320 | 音质好坏,数字越大越好 | 音频编码质量 | 320是高质量,128是普通质量 | ### 3.9 SongGeneration_Enhance - 音质增强节点 这个节点就像一个音频美颜器,能让生成的歌曲听起来更清晰、更动听。 #### 3.10 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 音频输入 | audio_input | 连接 | 从生成节点连接 | 接收要增强的音频 | 音频数据输入接口 | 连接到SongGeneration_Node的输出 | | 增强强度 | enhance_strength | 滑条 | 0.7 | 增强效果强弱 | 音频增强强度控制 | 0.3是轻微增强,0.9是强烈增强 | | 降噪开关 | denoise | 开关 | 开启 | 是否去除背景噪音 | 降噪功能开关 | 开启后声音更干净 | | 音量均衡 | normalize | 开关 | 开启 | 是否调整音量平衡 | 音量标准化开关 | 开启后音量更平稳 | ## 4. 使用技巧和建议 ### 4.1 新手入门建议 1. **先用简单参数**:刚开始不要调太多参数,用默认值生成几首歌感受一下效果 2. **逐步调整**:生成一首歌后,只改一个参数看看效果变化 3. **保存设置**:找到好的参数组合后要记录下来 ### 4.2 提升效果的小窍门 1. **文本提示要具体**: - ❌ 不好:"好听的歌" - ✅ 好:高涨的流行歌曲,电子节拍,年轻人喜欢" 2. **合理设置长度**: - 新手建议15-30秒,熟练后可以尝试更长 - 太长会消耗更多显存和时间 3. **步数平衡**: - 测试时用20-30步,正式生成用50-100步 - 步数太高不一定效果更好 ### 4.3 显存优化建议 1. **批次大小**:显存不够时把batch_size设置为1 2. **精度模式**:选择fp16能节省一半显存 3. **关闭其他程序**:生成时关闭游戏、视频等占显存的程序 ## 5. 常见问题解答 ### 5.1 安装问题 **Q:安装时报错"fairseq安装失败"怎么办?** A:Windows用户建议使用轮子安装fairseq,或者尝试先安装Visual Studio编译工具。 **Q:模型文件太大,下载很慢怎么办?** A:国内用户建议使用魔搭社区的镜像下载,速度会快很多。 ### 5.2 使用问题 **Q:显存不够用,老是崩溃怎么办?** A: 1. 把batch_size改成1 2. 使用fp16精度模式 3. 减少生成步数到20-30步 4. 关闭其他占用显存的程序 **Q:生成的歌曲效果不好怎么办?** A: 1. 检查文本提示是否够具体 2. 增加生成步数到50-100步 3. 调整温度参数,试试0.6-0.9之间的值 4. 使用音质增强节点后处理 **Q:为什么每次生成的歌都不一样?** A:设置固定的随机种子(比如123),这样每次生成结果就一样了。 ### 5.3 输出问题 **Q:生成的音频文件在哪里?** A:默认在ComfyUI的output文件夹里,也可以在保存节点设置自定义路径。 **Q:音频质量不够高怎么办?** A: 1. 提高采样率到48000 2. 使用音质增强节点 3. 保存时选择高质量格式(wav或高码率mp3) ## 6. 进阶玩法 ### 6.1 批量生成 连接多个生成节点,设置不同的提示词,一次生成多首不同风格的歌曲。 ### 6.2 风格混合 在提示词中混合多种风格,比如"流行摇滚混合电子音乐"。 ### 6.3 歌词创作 结合歌词输入功能,先写好歌词,然后生成对应的旋律。 ### 6.4 后期处理 生成基础音频后,可以导入其他音频编辑软件进行进一步处理和混音。 --- **总结:** 这个插件虽然功能强大,但使用起来并不复杂。关键是要有足够的显存(12G以上),然后按照教程一步步操作。新手建议从简单的参数开始,逐步探索更多功能。记住,好的音乐创作需要耐心和实践!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com