ComfyUI 魔法书 Logo
🏠 首页
👥 加群
😎 大帅比
❤️‍🔥 Monster 社区
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 😎 大帅比 ❤️‍🔥 Monster 社区
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-Dia_tts插件零基础入门教程 手把手教你玩转AI语音

ComfyUI-Dia_tts插件零基础入门教程 手把手教你玩转AI语音

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-03
  • 13 次阅读
编程界的小学生
编程界的小学生
# ComfyUI-Dia_tts 插件新手保姆级教程 ## 1. 插件简介 ComfyUI-Dia_tts 是一个把 Dia TTS 文字转语音功能集成到 ComfyUI 里的插件。原始项目地址:https://github.com/rkfg/ComfyUI-Dia_tts 这个插件是 ComfyUI 对 Nari labs 开发的 Dia TTS 的封装,就像给你的电脑装了一个特别厉害的语音合成器。 **这个插件能给我们带来什么效果?** - 把文字变成非常自然的语音,就像真人在说话一样 - 可以生成对话,比如让两个人在聊天:[S1]你好![S2]我也好! - 能做出各种语音效果,比如笑声、咳嗽等:(笑声)、(咳嗽) - 支持声音克隆,用一段录音就能让电脑模仿那个人的声音说别的话 ## 2. 如何安装 ### 方法一:通过 ComfyUI-Manager 安装(推荐新手) 1. 打开 ComfyUI,找到右下角的"Manager"按钮点击 2. 在弹出的窗口里选择"Custom Nodes Manager" 3. 搜索框里输入"Dia_tts"或"rkfg" 4. 找到对应插件点击"Install"安装 5. 安装完成后重启 ComfyUI ### 方法二:手动安装 1. 找到你的 ComfyUI 安装文件夹 2. 进入 `custom_nodes` 文件夹 3. 用命令行工具运行:`git clone https://github.com/rkfg/ComfyUI-Dia_tts.git` 4. 进入插件文件夹,安装依赖:`pip install -r requirements.txt` 5. 重启 ComfyUI **需要额外安装的依赖包:** - descript-audio-codec(音频编码解码器,就像音频的翻译官) - soundfile(音频文件处理工具,就像音频文件的管家) ## 3. 节点详细解析 ### 3.1 Dia Model Loader 节点(模型加载器) 这个节点就像一个"模型管家",负责把 Dia TTS 语音合成模型加载到内存里,为后面的语音生成做准备。 #### 3.2 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 模型路径 | model_path | 文件路径字符串 | /models/Dia/dia-v0_1.pth | 告诉电脑去哪里找模型文件,就像告诉快递员去哪个地址取包裹 | 指定Dia TTS模型文件的存储路径 | 选择你下载好的.pth文件,比如 /models/Dia/dia-v0_1.pth | | 配置文件路径 | config_path | 文件路径字符串 | /models/Dia/dia-v0_1.json | 模型的说明书,告诉电脑这个模型怎么用 | 模型配置文件路径,包含模型参数设置 | 选择对应的.json配置文件 | | 设备类型 | device | cuda/cpu | cuda | 选择用显卡还是处理器来运行,显卡快但费电,处理器慢但省电 | 指定模型运行的硬件设备 | 有N卡选cuda,没有选cpu | ### 3.3 Dia TTS Generate 节点(语音生成器) 这个节点是真正的"配音演员",接收文字然后生成对应的语音。 #### 3.4 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入文本 | text | 文本字符串 | 任意文本 | 你想让电脑说的话,可以用[S1][S2]标记不同说话人 | 待合成的文本内容,支持多说话人标记 | "[S1]你好世界![S2]很高兴见到你!" | | 音频提示 | audio_prompt | 音频数据 | 可选 | 给一段录音作参考,让生成的声音模仿这个录音的风格 | 用于声音克隆的参考音频 | 连接一个音频文件,比如某人说话的录音 | | 采样率 | sample_rate | 数字 | 22050 | 音频质量设置,数字越大音质越好但文件越大,就像照片分辨率 | 音频采样频率,影响音质 | 一般用22050或44100,高质量用44100 | | 生成长度 | max_length | 数字 | 1000 | 限制生成音频的最大长度,防止电脑一直说个不停 | 生成音频的最大时长限制 | 短句子用500,长对话用2000 | | 温度参数 | temperature | 0.1-2.0 | 0.7 | 控制声音的"创意程度",低了很死板,高了很随意 | 控制生成随机性的参数 | 正常对话用0.7,严肃内容用0.5,活泼内容用0.9 | | Top-p | top_p | 0.1-1.0 | 0.9 | 控制声音选择的"挑剔程度",高了更自然,低了更稳定 | 核采样参数,控制词汇选择范围 | 一般用0.9,要稳定可用0.7 | | 种子值 | seed | 整数 | 随机 | 随机数种子,相同种子会产生相同结果,方便重复实验 | 控制随机性的种子值 | 固定数字如42可重复结果,-1表示随机 | ### 3.5 Audio Retime 节点(音频调速器) 这个节点就像音频的"变速齿轮",可以让声音变快或变慢,同时可以选择是否保持音调。 #### 3.6 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入音频 | audio | 音频数据 | 必需 | 要调速的音频,从前面的生成节点连过来 | 待处理的音频数据流 | 连接Dia TTS Generate节点的音频输出 | | 速度倍数 | speed_factor | 0.5-2.0 | 1.0 | 播放速度,1.0是原速,2.0是两倍速,0.5是半速 | 音频播放速度调节系数 | 1.5让说话快一点,0.8让说话慢一点 | | 保持音调 | preserve_pitch | True/False | True | 变速时是否保持原来的音调,关闭会变成花栗鼠或大叔音 | 是否在调速时保持原始音调 | True保持正常声音,False会变音调 | ### 3.7 Audio Save 节点(音频保存器) 这个节点是"音频存档员",把生成的音频保存成文件。 #### 3.8 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入音频 | audio | 音频数据 | 必需 | 要保存的音频,从生成或调速节点连过来 | 待保存的音频数据 | 连接前面节点的音频输出 | | 文件名前缀 | filename_prefix | 文本字符串 | dia_tts | 保存文件的名字开头,方便分类管理 | 输出文件名的前缀标识 | "dialog_"会生成dialog_001.wav这样的文件 | | 输出格式 | format | wav/mp3/flac | wav | 音频文件格式,wav质量最好,mp3文件最小 | 音频文件的编码格式 | wav用于高质量,mp3用于分享 | | 自动保存 | save_audio_file | True/False | True | 是否自动保存到ComfyUI的输出文件夹 | 是否启用自动保存功能 | True会自动保存,False只预览不保存 | ## 4. 使用技巧和建议 ### 4.1 基础使用流程 1. **加载模型**:先用 Dia Model Loader 加载模型文件 2. **输入文本**:在 Dia TTS Generate 节点输入要转换的文字 3. **调节参数**:根据需要调整温度、采样率等参数 4. **连接输出**:把音频连接到保存节点或预览节点 ### 4.2 对话生成技巧 - 使用 `[S1]` 和 `[S2]` 标记不同的说话人 - 用括号标记非语言声音:`(笑声)`、`(咳嗽)`、`(清嗓子)` - 例子:`[S1]你好!(笑声) [S2]很高兴见到你!(鼓掌)` ### 4.3 声音克隆技巧 - 参考音频最好是清晰的单人说话录音 - 录音时长建议5-15秒,太短效果不好,太长会被截断 - 在文本开头先写参考音频的文字内容,再写要生成的新内容 - 例子:`[参考音频内容]你好大家 [新内容]今天天气真不错` ### 4.4 参数调优建议 - **温度值**:日常对话用0.7,新闻播报用0.5,动画配音用0.9 - **采样率**:质量要求高用44100,一般用22050就够了 - **速度调节**:解说类音频可以用1.2倍速,有感情的对话用0.9倍速 ## 5. 常见问题解答 ### Q1:安装后找不到节点? **A**:重启ComfyUI,确保依赖包都安装好了。检查是否有错误提示,特别是protobuf版本冲突的警告。 ### Q2:生成的音频没有声音? **A**:检查模型文件路径是否正确,确保.pth和.json文件都存在且匹配。 ### Q3:声音克隆效果不好? **A**:确保参考音频清晰,在文本开头准确写出参考音频的内容。参考音频建议5-15秒长度。 ### Q4:生成速度很慢? **A**:如果有独立显卡,确保设备选择了"cuda"。没有显卡的话只能用"cpu"会比较慢。 ### Q5:出现protobuf错误? **A**:在ComfyUI命令行运行:`pip install --upgrade protobuf` 来升级protobuf版本。 ### Q6:想要不同的声音风格? **A**:可以通过调整温度参数和使用不同的音频提示来获得不同风格。也可以尝试不同的模型文件。 ### Q7:生成的音频太快或太慢? **A**:使用Audio Retime节点调整播放速度,记得勾选"保持音调"避免变成奇怪的声音。 ## 6. 进阶玩法 ### 6.1 批量生成对话 可以准备多段对话文本,使用相同的模型设置批量生成,然后用音频编辑软件合并。 ### 6.2 情感控制 通过调整温度参数和音频提示,可以生成不同情感的语音: - 严肃:温度0.5,使用正式的参考音频 - 活泼:温度0.9,使用轻松的参考音频 - 温柔:温度0.6,使用柔和的参考音频 ### 6.3 多语言支持 根据模型训练情况,某些Dia模型可能支持多种语言。尝试用不同语言的文本进行生成。 ### 6.4 与其他节点组合 - 可以与ComfyUI的音频处理节点组合,添加混响、均衡器等效果 - 与LLM文本生成节点组合,实现自动对话生成 - 与音频分析节点组合,实现音频的自动分类和处理 记住,这个插件的核心价值在于能生成非常自然的对话音频,特别适合制作播客、有声读物、游戏配音等应用场景。多多实验,找到适合你需求的参数设置!
标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号