ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-DiaTTS超详细教程 手把手教你AI语音合成

ComfyUI-DiaTTS超详细教程 手把手教你AI语音合成

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-03
  • 5 次阅读
编程界的小学生
编程界的小学生

1. 插件简介

ComfyUI-DiaTTS 是一个能让你在 ComfyUI 里面制作语音对话的神器!它就像一个虚拟配音员,可以根据你写的剧本生成多个角色的对话,还能模仿你上传的声音样本。

插件地址: https://github.com/BobRandomNumber/ComfyUI-DiaTTS

这个插件能帮你做什么:

  • 制作多人对话:用[S1]、[S2]这样的标签来区分不同说话人
  • 添加表情音效:比如(笑声)、(咳嗽)、(叹气)等生动的声音
  • 声音克隆:上传一段音频,让AI模仿这个声音说新的话
  • 生成44100Hz高质量音频,声音清晰自然

想象一下,这就像是一个超级厉害的配音工作室,你只需要写好剧本,选好声音样本,它就能帮你生成完整的对话音频!

2. 如何安装

第一步:下载模型文件

  1. 去这个网址下载语音模型:https://huggingface.co/nari-labs/Dia-1.6B/resolve/main/model.safetensors?download=true
  2. 下载完成后,把文件放到你的 ComfyUI 文件夹里的 models/diffusion_models/ 目录下
  3. 建议把文件重命名为 Dia-1.6B.safetensors,方便识别

第二步:安装插件

  1. 打开 ComfyUI 文件夹里的 custom_nodes 目录
  2. 下载插件源码包并解压到这个目录里
  3. 或者用命令行:git clone https://github.com/BobRandomNumber/ComfyUI-DiaTTS.git

第三步:安装依赖

  1. 打开命令行窗口
  2. 进入插件目录:cd ComfyUI/custom_nodes/ComfyUI-DiaTTS
  3. 运行安装命令:pip install -r requirements.txt
  4. 重启 ComfyUI

注意: 这个插件需要支持CUDA的显卡才能运行,就是那种专门用来玩游戏和跑AI的显卡。

3. 节点详解

3.1 Dia 1.6b Loader 节点 - 模型加载器

这个节点就像一个"模型管家",负责把语音生成的大脑(也就是AI模型)装载到内存里准备工作。你可以把它想象成开机启动一个配音软件。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
ckpt_nameckpt_name下拉菜单显示.safetensors文件Dia-1.6B.safetensors这就像选择要用哪个配音员的声音库,每个文件代表一套完整的声音生成能力选择预训练的Dia模型检查点文件,包含了模型的权重和参数从列表中选择你下载的模型文件,通常是"Dia-1.6B.safetensors"

输出:

  • dia_model:加载好的模型,就像一个准备好工作的配音员,要连接到生成节点才能开始制作语音

3.2 Dia TTS Generate 节点 - 语音生成器

这个节点是真正的语音制作工厂,它接收你写的剧本,然后生成对应的语音。就像一个超级智能的配音演员,能根据你的要求说出各种话。

参数详解:

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
dia_modeldia_model从加载器传来的模型连接Loader输出这是刚才加载好的"配音员大脑",必须连接才能工作接收DiaLoader节点输出的模型实例用线连接Loader节点的dia_model输出到这里
texttext文本输入框你的剧本内容这是你要让AI说的话,用[S1]、[S2]区分不同说话人,用()加表情输入要转换为语音的文本,支持对话标签和非语言声音输入:[S1] 你好![S2] 你也好!(笑声)
max_tokensmax_tokens数字,最大30721720控制语音长度,数字越大生成的语音越长,就像设置录音时间上限限制生成的音频令牌数量,直接影响输出音频的长度短句子用1000,长对话用2500,最长不超过3072
cfg_scalecfg_scale小数,通常1.0-10.03.0控制AI听话程度,数字越大越严格按照你的文字生成,越小越有创意发挥分类器自由引导强度,影响生成内容对文本的遵循度要求精确朗读用5.0,要自然表达用2.0-3.0
temperaturetemperature小数,通常0.1-2.01.3控制语音的随机性,低了很死板,高了很随意,就像调节说话人的情绪波动控制采样过程中的随机性,影响输出的多样性和创造性机器人式朗读用0.7,自然对话用1.3,活泼聊天用1.8
top_ptop_p小数,0.0-1.00.95控制用词选择范围,数字越大选词越丰富,越小越保守核采样概率阈值,限制词汇选择的范围正式场合用0.8,日常对话用0.95,创意内容用0.98
cfg_filter_top_kcfg_filter_top_k整数,通常10-10035在精确控制时的词汇过滤数量,数字越小选择越精确CFG过程中的Top-K过滤参数,影响生成质量要求精确发音用20,平衡质量用35,丰富表达用50
speed_factorspeed_factor小数,通常0.5-2.00.94调节说话速度,1.0是正常速度,小于1.0慢一些,大于1.0快一些调整生成音频的播放速度倍数慢速朗读用0.8,正常对话用0.94,快速播报用1.2
seedseed整数,任意数字随机或固定数字随机种子,相同的种子配相同的设置会生成相同的结果,用于重复实验控制随机数生成的种子值,确保结果可重现测试时用固定数字如12345,正式使用可以随机
audio_promptaudio_prompt音频输入(可选)可不连接声音克隆用的样本,连接一段音频让AI模仿这个声音说新话可选的音频条件输入,用于声音克隆和风格迁移连接LoadAudio节点加载的音频文件

输出:

  • audio:生成的语音文件,44100Hz采样率,可以连接到保存或预览节点

4. 使用技巧和建议

基础对话制作技巧:

  1. 说话人标签:用[S1]、[S2]等标签区分不同角色,就像给每个演员分配台词
  2. 表情音效:支持这些表情音 - (笑声)、(咳嗽)、(叹气)、(喘气)、(咳嗽)、(唱歌)、(嘟哝)、(哼唱)、(鼓掌)、(尖叫)、(吸气)、(呼气)、(掌声)、(打嗝)、(哼唱)、(打喷嚏)、(轻笑)、(吹口哨)

声音克隆使用技巧:

  1. 准备样本:上传一段清晰的音频样本(wav或mp3格式)
  2. 写好对照:在文本框里先写上音频样本的准确台词,再写要生成的新内容
  3. 调整参数:适当降低temperature让声音更像样本,提高cfg_scale让内容更准确

参数调节建议:

  • 日常对话:cfg_scale=3.0, temperature=1.3, top_p=0.95
  • 正式朗读:cfg_scale=5.0, temperature=0.8, top_p=0.85
  • 情感丰富:cfg_scale=2.5, temperature=1.5, top_p=0.98

5. 常见问题解答

Q1:提示需要CUDA显卡怎么办?

A1:这个插件必须用游戏显卡(NVIDIA显卡)才能运行,如果你的电脑没有,可以考虑使用云端ComfyUI服务。

Q2:生成的语音和文字内容不匹配?

A2:试试调高cfg_scale到4.0-5.0,让AI更严格按照文字内容生成。同时检查文字是否有拼写错误。

Q3:声音克隆效果不好?

A3:确保文本输入的开头部分是音频样本的准确台词,就像这样:"[S1] 这是我的声音样本内容 [S2] 现在请用这个声音说新的话"

Q4:音频太长或太短?

A4:调整max_tokens参数,短句子用1000-1500,长对话用2000-2500,最长不超过3072。

Q5:声音听起来很机械?

A5:适当提高temperature到1.3-1.5,让声音更自然。同时可以在文本中添加一些表情音效让对话更生动。

6. 实际应用场景

这个插件特别适合:

  • 教学视频制作:为课程内容配音,制作对话式教学
  • 故事创作:为小说、童话配音,制作有声读物
  • 游戏开发:为游戏角色制作对话语音
  • 广告制作:快速制作广告配音素材
  • 个人创作:制作播客、有声日记等个人内容

总之,ComfyUI-DiaTTS 就像是给你的创作工具箱里添加了一个超级配音员,让你可以轻松制作出各种有趣的语音内容。记住最重要的是多试验不同的参数组合,找到最适合你需求的设置!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号