# ComfyUI_KokoroTTS_MW 插件完整教程 ## 1. 插件简介 **插件地址:** https://github.com/billwuhao/ComfyUI_KokoroTTS_MW 这个插件就像是给你的ComfyUI装了一个"智能配音员",能够把文字变成真人一样的语音。想象一下,你在做视频时需要配音,以前可能要自己录音或者找配音员,现在只需要输入文字,这个插件就能帮你生成各种声音的语音。 **主要功能:** - 支持8种语言(中文、英语、日语、西班牙语、法语、印地语、意大利语、巴西葡萄牙语) - 提供150种不同的声音选择(男声、女声、各种音色) - 支持双人对话(就像两个人在聊天一样) - 生成速度很快,几乎实时出结果 - 可以轻松融入你的ComfyUI工作流程 ## 2. 如何安装 ### 方法一:使用命令行安装(推荐) 1. 打开命令提示符(Windows)或终端(Mac/Linux) 2. 进入ComfyUI的插件文件夹: ```bash cd ComfyUI/custom_nodes ``` 3. 下载插件: ```bash git clone https://github.com/billwuhao/ComfyUI_KokoroTTS_MW.git ``` 4. 进入插件文件夹: ```bash cd ComfyUI_KokoroTTS_MW ``` 5. 安装必要的组件: ```bash pip install -r requirements.txt ``` ### 方法二:Windows便携版安装 如果你用的是Windows便携版ComfyUI: ```bash ./python_embeded/python.exe -m pip install -r requirements.txt ``` ### 重要步骤:下载语音模型 安装完插件后,你还需要手动下载语音模型文件: 1. 在ComfyUI文件夹下创建路径:`ComfyUI\models\Kokorotts` 2. 下载对应的模型文件(具体下载链接请查看GitHub页面) 3. 文件结构应该像这样: ``` ComfyUI\models\Kokorotts ├── Kokoro-82M │ ├── voices │ ├── config.json │ └── kokoro-v1_0.pth └── Kokoro-82M-v1.1-zh ├── voices ├── config.json └── kokoro-v1_1-zh.pth ``` ## 3. 节点详细解析 ### 3.1 KokoroTTS节点 - 基础文字转语音 这个节点就像一个"万能翻译官",能把你输入的文字变成各种声音说出来。 #### 3.2 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 文本内容 | text | 文本输入 | 任意文字 | 就像在聊天框里打字一样,输入你想要变成语音的文字 | 输入需要转换为语音的文本内容 | 输入"你好,欢迎来到我的频道"就能生成对应的语音 | | 语言选择 | language | 下拉菜单 | 根据文本语言选择 | 告诉插件你输入的是什么语言,就像告诉翻译软件一样 | 指定输入文本的语言类型 | 中文选择"Chinese",英文选择"English" | | 声音类型 | voice | 下拉菜单 | 根据喜好选择 | 就像选择不同的配音演员,有男声女声,老少声音 | 选择语音合成使用的声音模型 | 选择"female_01"得到女声,"male_01"得到男声 | | 语速调节 | speed | 数值滑块 | 1.0 | 控制说话的快慢,就像调节播放器的倍速 | 调整语音播放的速度倍率 | 0.8=慢一点,1.2=快一点 | | 音调高低 | pitch | 数值滑块 | 0.0 | 调节声音的高低,就像调节音响的高音低音 | 调整语音的音调高低 | 正数=声音变高,负数=声音变低 | | 音量大小 | volume | 数值滑块 | 1.0 | 控制声音的大小,就像调节音响音量 | 调整输出音频的音量大小 | 0.5=音量减半,2.0=音量加倍 | ### 3.3 KokoroTTS对话节点 - 双人对话功能 这个节点就像安排两个人在对话,可以让不同的声音轮流说话,制作对话效果。 #### 3.4 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 对话文本 | dialogue_text | 文本输入 | 格式化对话 | 输入对话内容,需要标明谁在说话 | 输入包含多个说话者的对话文本 | "A:你好!\nB:你好,很高兴见到你" | | 说话者A声音 | speaker_a_voice | 下拉菜单 | 根据角色选择 | 选择第一个说话的人用什么声音 | 为对话中的A角色选择声音 | 选择女声来扮演女主角 | | 说话者B声音 | speaker_b_voice | 下拉菜单 | 根据角色选择 | 选择第二个说话的人用什么声音 | 为对话中的B角色选择声音 | 选择男声来扮演男主角 | | A语速 | speaker_a_speed | 数值滑块 | 1.0 | 控制A说话的快慢 | 调整A角色语音的播放速度 | 让女角色说话慢一点显得温柔 | | B语速 | speaker_b_speed | 数值滑块 | 1.0 | 控制B说话的快慢 | 调整B角色语音的播放速度 | 让男角色说话快一点显得急躁 | | A音调 | speaker_a_pitch | 数值滑块 | 0.0 | 调节A声音的高低 | 调整A角色语音的音调 | 提高音调让声音更年轻 | | B音调 | speaker_b_pitch | 数值滑块 | 0.0 | 调节B声音的高低 | 调整B角色语音的音调 | 降低音调让声音更成熟 | | 对话间隔 | pause_duration | 数值滑块 | 0.5 | 控制两句话之间的停顿时间 | 设置对话之间的静音间隔 | 0.3秒=快节奏,1.0秒=慢节奏 | ### 3.5 语音输出节点 - 保存和播放 这个节点就像一个"录音机",负责把生成的语音保存成文件或者直接播放。 #### 3.6 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输出格式 | output_format | 下拉菜单 | WAV | 选择保存的音频格式,就像选择图片格式一样 | 指定输出音频文件的格式 | WAV质量最好,MP3文件最小 | | 采样率 | sample_rate | 下拉菜单 | 22050 | 控制音质好坏,就像调节图片清晰度 | 设置音频的采样频率 | 22050=标准质量,44100=高质量 | | 文件名前缀 | filename_prefix | 文本输入 | "kokoro_" | 给生成的音频文件起个名字开头 | 设置保存文件的名称前缀 | 输入"我的配音"会生成"我的配音_001.wav" | | 自动播放 | auto_play | 复选框 | 开启 | 生成完成后是否自动播放,就像自动播放视频 | 控制是否在生成完成后自动播放音频 | 开启后可以立即听到效果 | ## 4. 使用技巧和建议 ### 4.1 选择合适的声音 - **做教程视频**:选择清晰、语速适中的声音 - **制作广告**:选择有感染力的声音 - **儿童内容**:选择温柔、活泼的声音 - **严肃内容**:选择低沉、稳重的声音 ### 4.2 调节参数的小窍门 - **语速调节**:0.8-1.2之间最自然,太快或太慢都会显得不自然 - **音调调节**:小幅度调整(±0.2)效果最好 - **音量控制**:保持在0.8-1.2之间避免失真 ### 4.3 文本输入技巧 - **标点符号**:正确使用逗号、句号,会影响语音的停顿 - **分段输入**:长文本建议分段处理,效果更好 - **特殊符号**:避免使用特殊符号,可能影响语音质量 ### 4.4 对话制作技巧 - **角色区分**:用不同音调和语速区分不同角色 - **情感表达**:通过调节参数表达不同情感 - **节奏控制**:适当的停顿让对话更真实 ## 5. 常见问题解答 ### Q1:为什么生成的语音听起来很机械? **A1:** - 检查语速设置,建议在0.8-1.2之间 - 尝试不同的声音模型 - 调整音调让声音更自然 ### Q2:中文发音不准确怎么办? **A2:** - 确保选择了正确的中文语言模型 - 避免使用繁体字或特殊符号 - 尝试将长句子分成短句子 ### Q3:生成的音频文件在哪里? **A3:** - 默认保存在ComfyUI的output文件夹 - 可以通过文件名前缀设置来查找 - 检查ComfyUI的输出设置 ### Q4:如何制作更自然的对话? **A4:** - 为不同角色设置不同的语速和音调 - 适当增加对话间的停顿时间 - 使用口语化的表达方式 ### Q5:插件运行很慢怎么办? **A5:** - 确保正确安装了所有依赖 - 检查电脑配置是否满足要求 - 尝试缩短单次处理的文本长度 ## 6. 创作应用场景 ### 6.1 教育内容制作 - **在线课程**:为课程制作配音 - **知识讲解**:科普视频配音 - **语言学习**:多语言发音示例 ### 6.2 娱乐内容创作 - **短视频配音**:为搞笑视频配音 - **故事讲述**:有声读物制作 - **角色扮演**:不同角色的声音 ### 6.3 商业用途 - **产品介绍**:产品展示配音 - **广告制作**:营销视频配音 - **客服应用**:自动回复语音 ### 6.4 个人项目 - **家庭记录**:为家庭视频配音 - **个人日记**:语音日记制作 - **学习笔记**:将笔记转换为语音 ## 7. 进阶使用建议 ### 7.1 与其他节点结合使用 - **配合图像生成**:为AI生成的图像配音 - **视频制作流程**:在视频工作流中添加配音 - **音频后处理**:结合音频处理节点优化效果 ### 7.2 批量处理技巧 - **脚本化处理**:编写脚本批量生成语音 - **模板制作**:创建常用的语音生成模板 - **工作流优化**:设计高效的语音制作流程 这个插件就像是给你的创作工具箱添加了一个强大的"配音助手",无论你是新手还是专业创作者,都能轻松制作出高质量的语音内容。记住,多练习、多尝试不同的参数组合,你会发现更多有趣的用法!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com