# ComfyUI-Orpheus 插件完整教程:把文字变成真人说话的神奇工具 ## 1. 插件简介 **插件原地址:** https://github.com/numz/Comfyui-Orpheus 这个插件就像是给ComfyUI装上了一个"虚拟配音员",能够把你写的文字直接转换成各种声音的真人说话。想象一下,你在视频制作软件里输入文字,然后电脑就能用不同的声音(男声、女声、各种语言)把这些文字读出来,甚至还能带上笑声、咳嗽、叹气等情感表达。 **这个插件能给你带来什么效果:** - 把任何文字转换成逼真的人声朗读 - 支持8种语言(英语、法语、西班牙语、意大利语、中文、韩语、德语、印地语) - 总共24种不同的声音可以选择 - 可以在朗读中加入各种情感表达,比如笑声、咳嗽、叹气等 - 生成的音频质量非常高,听起来很自然 ## 2. 如何安装 ### 第一步:下载插件 1. 打开你的ComfyUI文件夹 2. 找到 `custom_nodes` 这个子文件夹 3. 在这个文件夹里打开命令行(按住Shift右键选择"在此处打开命令窗口") 4. 输入这个命令: ``` git clone https://github.com/numz/Comfyui-Orpheus.git ``` ### 第二步:安装依赖包 1. 如果你用的是ComfyUI的虚拟环境,先激活它,然后运行: ``` pip install -r ComfyUI-Orpheus/requirements.txt ``` 2. 如果你用的是ComfyUI自带的Python,运行: ``` python_embeded\python.exe -m pip install -r ComfyUI-Orpheus/requirements.txt ``` ### 第三步:下载语音模型 1. 去这个网址:https://huggingface.co/freddyaboulton 2. 下载GGUF格式的模型文件 3. 把下载的模型文件放到你的ComfyUI文件夹下的 `models/unet/` 目录里 ### 第四步:显卡加速(可选) 如果你有NVIDIA显卡并且想要更快的处理速度,需要额外设置: ``` set CMAKE_ARGS="-DGGML_CUDA=on" set CUDA_CXX="你的CUDA路径\v12.x.x\bin\nvcc.exe" python_embeded\python.exe -m pip install llama-cpp-python[server] --upgrade --force-reinstall --no-cache-dir ``` ## 3. 节点详解 ### 3.1 Orpheus ⛓️ 节点 这个节点就像是一个"魔法配音师",你给它文字和声音选项,它就能生成对应的语音。 ### 3.2 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 模型名称 | model_name | 文本输入框 | 你下载的模型文件名 | 选择你要用哪个"大脑"来生成声音 | 指定要使用的GGUF模型文件 | 比如输入"orpheus-tts-v1.gguf" | | 声音选择 | voice | 下拉菜单 | 根据语言选择合适的声音 | 选择你想要的声音类型,就像选择不同的配音员 | 从预定义的声音库中选择特定的声音配置 | 英语可选tara、leah、jess等,中文可选长乐、白芷 | | 文本内容 | prompt | 多行文本框 | 你想要转换成语音的文字 | 输入你想让"配音员"说的话 | 要转换为语音的文本内容,支持情感标签 | 可以写"Hello world!"或"你好世界!哈哈哈" | | 最大长度 | max_tokens | 数字输入 | 512-2048 | 控制一次能处理多少个字,就像限制每次说话的长度 | 设置单次处理的最大token数量 | 一般设置1024就够用了 | | 温度值 | temperature | 小数 | 0.1-0.9 | 控制声音的"随机性",数值越高声音越有变化 | 控制生成音频的随机性和多样性 | 0.3比较稳定,0.7比较有变化 | | 重复惩罚 | repeat_penalty | 小数 | 1.0-1.2 | 防止生成的声音出现重复,就像防止口吃 | 避免生成重复的音频片段 | 一般设置1.1就可以了 | | 种子值 | seed | 整数 | 任意数字 | 控制随机性,相同的种子会产生相同的结果 | 随机数生成器的种子值 | 设置42可以让结果可复现 | ### 3.3 输出接口 | 输出名称 | 输出类型 | 通俗解释 | 专业解释 | 怎么用 | |:---|:---|:---|:---|:---| | 音频 | AUDIO | 生成的声音文件,可以直接播放或保存 | 包含音频波形和采样率的音频数据 | 连接到音频播放节点或保存节点 | ## 4. 各语言声音选项详解 ### 4.1 英语声音 **支持的情感标签:** ``, ``, ``, ``, ``, ``, ``, `` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | tara | 女声 | 温和清晰 | | leah | 女声 | 年轻活泼 | | jess | 女声 | 成熟稳重 | | leo | 男声 | 深沉有力 | | dan | 男声 | 友好亲切 | | mia | 女声 | 甜美动听 | | zac | 男声 | 年轻阳光 | | zoe | 女声 | 清新自然 | ### 4.2 法语声音 **支持的情感标签:** ``, ``, ``, ``, ``, ``, ``, ``, `` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | pierre | 男声 | 标准法语发音 | | amelie | 女声 | 优雅动听 | | marie | 女声 | 效果不太好,不推荐 | ### 4.3 德语声音 **支持的情感标签:** ``, ``, ``, ``, ``, ``, ``, `` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | jana | 女声 | 清晰标准 | | thomas | 男声 | 稳重可靠 | | max | 男声 | 年轻有活力 | ### 4.4 韩语声音 **支持的情感标签:** `한숨`, `헐`, `헛기침`, `훌쩍`, `하품`, `낄낄`, `신음`, `작은 웃음`, `기침`, `으르렁` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | 유나 | 未知 | 韩语发音 | | 준서 | 未知 | 韩语发音 | ### 4.5 中文声音 **支持的情感标签:** `<嬉笑>`, `<轻笑>`, `<呻吟>`, `<大笑>`, `<咳嗽>`, `<抽鼻子>`, `<咳>` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | 长乐 | 未知 | 中文发音 | | 白芷 | 未知 | 中文发音 | ### 4.6 印地语声音 **支持的情感标签:** 未知 | 声音名称 | 性别 | 特点 | |:---|:---|:---| | ऋतिका | 未知 | 印地语发音 | ### 4.7 西班牙语声音 **支持的情感标签:** ``, ``, ``, ``, ``, ``, `` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | javi | 男声 | 西班牙语发音 | | sergio | 男声 | 西班牙语发音 | | maria | 女声 | 西班牙语发音 | ### 4.8 意大利语声音 **支持的情感标签:** ``, ``, ``, ``, ``, ``, ``, `` | 声音名称 | 性别 | 特点 | |:---|:---|:---| | pietro | 男声 | 意大利语发音 | | giulia | 女声 | 意大利语发音 | | carlo | 男声 | 意大利语发音 | ## 5. 使用技巧和建议 ### 5.1 文本输入技巧 - **长度控制:** 每次输入的文字不要太长,建议每段控制在200字以内 - **情感标签:** 在合适的地方加入情感标签,比如"今天天气真好哈哈哈" - **标点符号:** 适当使用标点符号,这样生成的语音节奏会更自然 ### 5.2 声音选择建议 - **英语推荐:** tara(女声)或dan(男声)效果最好 - **中文推荐:** 长乐声音相对更清晰 - **法语推荐:** pierre(男声)或amelie(女声) - **避免使用:** marie(法语女声)效果不太好 ### 5.3 参数调节技巧 - **温度值:** 新手建议从0.3开始,如果觉得声音太机械可以调到0.5 - **重复惩罚:** 一般设置1.1就够了,不要设置太高 - **种子值:** 如果你喜欢某次生成的效果,记住种子值,下次可以复现 ## 6. 常见问题解答 ### Q1:为什么我的ComfyUI找不到Orpheus节点? **A:** 可能是安装不完整,请检查: 1. 插件是否正确安装在custom_nodes文件夹里 2. 依赖包是否都安装成功 3. 模型文件是否放在正确的位置 4. 重启ComfyUI ### Q2:生成的声音质量不好怎么办? **A:** 可以尝试: 1. 降低温度值(比如从0.7调到0.3) 2. 换一个声音试试 3. 检查输入文本是否有特殊字符 4. 确保模型文件下载完整 ### Q3:处理速度很慢怎么办? **A:** 可以尝试: 1. 减少输入文本的长度 2. 如果有NVIDIA显卡,按照上面的方法开启GPU加速 3. 降低max_tokens的值 ### Q4:支持中文吗? **A:** 支持!有长乐和白芷两个中文声音可以选择,还支持中文的情感标签。 ### Q5:可以一次生成很长的音频吗? **A:** 建议不要一次生成太长的音频,可以分段生成然后拼接,这样效果会更好。 ## 7. 实际应用场景 ### 7.1 视频制作 - 为短视频添加旁白 - 制作教学视频的配音 - 创作多语言内容 ### 7.2 有声读物 - 将文章转换成有声版本 - 制作个人有声日记 - 为小说配音 ### 7.3 语言学习 - 制作多语言对比材料 - 练习不同语言的发音 - 创建个性化学习内容 ### 7.4 创意项目 - 为游戏制作多语言配音 - 创作互动故事 - 制作个性化语音助手 ## 8. 注意事项 - 确保你有足够的显存,特别是在使用GPU加速时 - 不同语言的情感标签不通用,要使用对应语言的标签 - 生成的音频文件会占用一定的磁盘空间 - 首次使用可能需要一些时间来加载模型 这个插件真的是ComfyUI的一个强大补充,让你的创作有了"声音"。无论是做视频、写文章还是学习语言,都能派上用场。记住,多尝试不同的参数组合,找到最适合你需求的设置!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com