# ComfyUI_MSSpeech_TTS 插件完整保姆级教程 ## 1. 插件简介 ComfyUI_MSSpeech_TTS 是一个专门用于ComfyUI的文字转语音插件,它使用微软的语音合成服务将文字内容转换成MP3格式的语音文件。这个插件就像是给ComfyUI装上了一个"朗读器",能够把你输入的文字变成真人般的语音。 **插件原地址:** https://github.com/chflame163/ComfyUI_MSSpeech_TTS **主要功能:** - 把文字变成语音文件(就像手机的朗读功能) - 播放声音文件(mp3和wav格式) - 控制什么时候播放声音(触发器功能) - 支持多种语言和不同的声音(男声、女声等) ## 2. 如何安装 ### 方法一:手动安装(推荐新手) 1. 下载插件文件,解压后得到"ComfyUI_MSSpeech_TTS"文件夹 2. 把这个文件夹复制到你的ComfyUI安装目录下的 `ComfyUI\custom_nodes\` 文件夹里 3. 在文件管理器中打开ComfyUI\custom_nodes\ComfyUI_MSSpeech_TTS\ 这个位置,按住Shift键右键点击空白处,选择"在此处打开命令窗口" 4. 在弹出的黑色窗口中输入以下命令:`..\..\..\python_embeded\python.exe -s -m pip install -r requirements.txt` 5. 等待安装完成后重启ComfyUI ### 方法二:使用ComfyUI Manager 1. 在ComfyUI界面点击"Manager" 2. 搜索"MSSpeech" 3. 点击安装并重启 ## 3. 节点详细解析 ### 3.1 MicrosoftSpeech_TTS 节点(主要的文字转语音功能) 这个节点就像是一个"朗读员",你给它文字,它就能读出来并保存成声音文件。 #### 3.1.1 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数值类型 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 文本内容 | text | 文本输入 | 任意中文或英文 | 这里填写你想要转成语音的文字内容 | 输入需要合成语音的文本字符串 | 填写"欢迎使用ComfyUI",系统就会把这句话读出来 | | 语音选择 | voice | 下拉选择 | 根据需要选择 | 选择不同的声音,就像选择不同的人来朗读 | 选择微软TTS提供的语音模型 | 选择"中文-晓晓-女声"会用女声朗读中文 | | 语音速度 | rate | 数字输入 | 0 | 控制说话的快慢,0是正常速度 | 语音合成的速度调节,范围-200到200 | 设置50会比正常速度快一点,设置-50会慢一点 | | 文件名前缀 | filename_prefix | 文本输入 | "tts_" | 给生成的语音文件起个名字开头 | 生成的音频文件名称前缀 | 填写"我的语音",生成的文件就叫"我的语音_001.mp3" | #### 3.1.2 输出结果 - **MP3文件路径**:这个节点会输出一个文字,内容是生成的语音文件保存在电脑哪个位置 ### 3.2 PlaySound 节点(播放声音功能) 这个节点就像是一个"音响",可以播放mp3或wav格式的声音文件,而且可以同时播放多个声音。 #### 3.2.1 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数值类型 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 声音文件路径 | path | 文本输入 | 具体文件路径 | 告诉系统声音文件在电脑的哪个位置 | 音频文件的完整路径地址 | 填写"C:\音乐\背景音乐.mp3"就会播放这个文件 | | 音量大小 | volume | 数字输入 | 0.5 | 控制声音的大小,就像调节音响音量 | 音量控制,范围0-1.0 | 0.2是比较小声,0.8是比较大声 | | 播放速度 | speed | 数字输入 | 1.0 | 控制播放的快慢,1.0是正常速度 | 播放速度调节,范围0.1-2.0 | 1.5是1.5倍速播放,0.5是半速播放 | | 触发开关 | trigger | 布尔值 | True | 控制什么时候开始播放,True就播放 | 触发播放的开关信号 | 连接一个触发器,当条件满足时自动播放 | ### 3.3 PlaySoundSolo 节点(独占播放声音功能) 这个节点也是"音响",但是同一时间只能播放一个声音,新的声音会停止旧的声音。 #### 3.3.1 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数值类型 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 声音文件路径 | path | 文本输入 | 具体文件路径 | 告诉系统声音文件在电脑的哪个位置 | 音频文件的完整路径地址 | 填写"D:\声音\提示音.wav"就会播放这个文件 | | 音量大小 | volume | 数字输入 | 0.5 | 控制声音的大小,就像调节音响音量 | 音量控制,范围0-1.0 | 0.3是小声,0.7是大声 | | 循环播放 | loop | 布尔值 | False | 控制是否重复播放,True就会一直重复 | 是否循环播放音频文件 | 设置True可以做背景音乐,一直重复播放 | | 触发开关 | trigger | 布尔值 | True | 控制什么时候开始播放,True就播放 | 触发播放的开关信号 | 连接一个触发器,当条件满足时自动播放 | ### 3.4 InputTrigger 节点(输入检测触发器) 这个节点就像是一个"感应器",当有东西连接到它时,它就会发出"开始"的信号。 #### 3.4.1 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数值类型 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 | |:---|:---|:---|:---|:---|:---|:---| | 任意输入 | input | 任意类型 | 任意内容 | 可以连接任何类型的数据,有内容就触发 | 接受任意类型的输入数据 | 连接图片、文字、数字等任何内容都可以 | | 始终为真 | always_true | 布尔值 | False | 打开这个开关就会一直输出"开始"信号 | 忽略输入检测,直接输出True | 用于测试或者需要持续触发的场景 | #### 3.4.2 输出结果 - **布尔值**:输出True(开始)或False(停止)的信号 ## 4. 使用技巧和建议 ### 4.1 语音选择技巧 - 语音列表可以通过修改voicelist.ini文件来自定义 - 想要启用某个语音,就删除这一行开头的"#"符号 - 想要隐藏某个语音,就在这一行开头添加"#"符号 - 建议根据内容语言选择对应的语音(中文内容选中文语音,英文内容选英文语音) ### 4.2 文件管理建议 - 建议为不同用途的语音文件设置不同的文件名前缀 - 例如:新闻朗读用"news_",故事朗读用"story_" - 定期清理不需要的语音文件,避免占用过多硬盘空间 ### 4.3 播放控制技巧 - 使用PlaySound节点可以同时播放多个声音(比如背景音乐+语音解说) - 使用PlaySoundSolo节点避免声音重叠(比如按钮提示音) - 合理设置音量大小,避免声音过大或过小 ### 4.4 工作流程建议 1. 先用MicrosoftSpeech_TTS节点生成语音文件 2. 再用PlaySound或PlaySoundSolo节点播放 3. 用InputTrigger节点控制播放时机 ## 5. 常见问题解答 ### Q1: 为什么生成的语音文件找不到? **A:** 检查文件名前缀设置是否正确,生成的文件通常保存在ComfyUI的输出文件夹中。 ### Q2: 为什么有些语音选项显示不出来? **A:** 需要编辑voicelist.ini文件,删除想要启用的语音前面的"#"符号。 ### Q3: 为什么播放声音时没有声音? **A:** 检查以下几点: - 声音文件路径是否正确 - 音量设置是否过低 - 电脑音响是否正常工作 - 触发开关是否设置为True ### Q4: 语音生成速度太慢怎么办? **A:** 这取决于网络连接速度,因为需要连接微软的服务器。建议检查网络连接。 ### Q5: 支持哪些语言? **A:** 支持微软TTS服务提供的所有语言,包括中文、英文、日文、韩文等多种语言。 ## 6. 高级应用场景 ### 6.1 制作有声故事 1. 准备故事文本 2. 选择合适的语音(男声/女声) 3. 设置合适的语速 4. 添加背景音乐(使用PlaySound节点) ### 6.2 制作教学视频配音 1. 准备教学内容文本 2. 选择清晰的语音 3. 设置较慢的语速便于理解 4. 配合图像生成工作流程 ### 6.3 制作多语言内容 1. 准备不同语言的文本 2. 为每种语言选择对应的语音 3. 使用触发器控制播放顺序 ## 7. 注意事项 - 本插件需要网络连接才能工作(需要连接微软的服务器) - 生成的语音文件会占用硬盘空间,建议定期清理 - 语音质量和语速可能因网络状况而有所不同 - 请遵守相关法律法规,不要生成不当内容 ## 8. 更新和维护 - 定期检查插件更新,获取新的语音选项和功能改进 - 如遇到问题,可以到GitHub页面查看最新的解决方案 - 建议关注作者的更新日志,了解新功能和修复内容 这个插件让ComfyUI具备了强大的语音合成能力,无论是制作教学内容、娱乐视频还是其他创意项目,都能发挥重要作用。希望这个教程能帮助您快速上手并充分利用这个插件的功能!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com