# ComfyUI-IF_AI_WishperSpeechNode 插件详细教程 ## 1. 插件简介 ComfyUI-IF_AI_WishperSpeechNode 是一个超级厉害的语音合成插件,就像给 ComfyUI 装上了一个"朗读器"!这个插件能够把你输入的文字转换成真人般自然的语音,而且还能快速训练出自定义的声音模型。 **GitHub 原地址:** https://github.com/if-ai/ComfyUI-IF_AI_WishperSpeechNode **这个插件能给我们带来什么效果?** - 把任何文字变成声音,就像有人在给你朗读一样 - 可以选择不同的声音,让"朗读员"换个嗓子 - 可以调节说话速度,想快就快,想慢就慢 - 生成的声音非常自然,听起来就像真人在说话 - 可以用来做配音、旁白、有声读物等等 ## 2. 如何安装 **方法一:通过 ComfyUI 管理器(推荐)** 1. 打开 ComfyUI,点击右侧的"Manager"按钮 2. 在搜索框里输入"IF_AI_WishperSpeechNode" 3. 找到后点击"Install"按钮 4. 等待安装完成,重启 ComfyUI **方法二:手动安装** 1. 打开你的 ComfyUI 安装目录 2. 进入 `custom_nodes` 文件夹 3. 在这个文件夹里右键打开命令行工具 4. 输入命令:`git clone https://github.com/if-ai/ComfyUI-IF_AI_WishperSpeechNode.git` 5. 等待下载完成 6. 进入下载的文件夹,运行:`pip install -r requirements.txt` 7. 重启 ComfyUI **特别注意:** 这个插件需要安装额外的依赖库 dlib,如果遇到问题,请按照插件页面的说明进行安装。 ## 3. 节点详解 ### 3.1 IF_WhisperSpeech 节点 - 文字变声音的魔法盒 这个节点就像一个"朗读机器人",你给它文字,它就能说出来。想象一下,你有一个很听话的朗读员,你写什么它就读什么,而且还能调节它的声音和说话速度。 ### 3.2 参数详解 | 参数名 (界面显示) | 参数名 (代码里) | 参数类型 | 默认值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Text | text | 文本框 | 关于电磁学的示例文本 | 任何你想要转换的文字 | 这里就是你要让"朗读员"说的话,就像给演员台词一样 | 输入需要转换为语音的文本内容,支持多行输入 | 输入"你好,欢迎来到我的频道",它就会说出这句话 | | File Name | file_name | 文本框 | IF_whisper_speech | 自定义名称 | 给生成的声音文件起个名字,就像给照片起名字一样 | 指定输出音频文件的基础名称,系统会自动添加时间戳 | 输入"我的配音",最终文件名会是"我的配音_20240101_120000.wav" | | Speaker | speaker | 下拉菜单 | None | 根据需要选择 | 选择"朗读员"的声音,就像选择不同的播音员一样 | 从预设的语音库中选择说话人的声音特征 | 选择"female_voice"会用女声,选择"male_voice"会用男声 | | Use Torch Compile | torch_compile | 开关 | False | 看电脑性能决定 | 开启后朗读速度会更快,但需要更好的电脑配置 | 启用Torch编译优化以提高模型运行速度 | 如果你的电脑显卡比较好,可以开启这个选项 | | Characters Per Second | cps | 数字滑块 | 14.0 | 10.0-20.0 | 控制说话速度,就像调节播放速度一样 | 设置每秒钟朗读的字符数量,数值越高语速越快 | 设置为10会说得很慢,设置为20会说得很快 | | Overlap | overlap | 数字滑块 | 100.0 | 50.0-150.0 | 让声音更自然流畅,就像让句子之间连接更顺畅 | 设置音频片段间的重叠时间(毫秒),减少断句感 | 设置为100会让声音听起来更连贯自然 | ### 3.3 输出结果 这个节点会给你两个"成果": 1. **AUDIO(音频数据)** - 这是处理好的声音数据,可以直接在 ComfyUI 里播放或者连接到其他音频处理节点 2. **AUDIO_FILE(音频文件路径)** - 这是保存到电脑里的声音文件地址,你可以用任何播放器打开 ## 4. 使用技巧和建议 ### 4.1 调节语速的小窍门 - **慢速朗读(10-12)**:适合做教学视频、有声读物 - **正常语速(13-15)**:适合做新闻播报、日常配音 - **快速朗读(16-20)**:适合做广告配音、紧急通知 ### 4.2 让声音更自然的技巧 - 把 `overlap` 参数调到 100-150 之间,这样声音听起来不会一卡一卡的 - 长文本建议分段输入,每段不要超过 200 个字 - 如果生成的声音有杂音,可以尝试降低 `cps` 值 ### 4.3 选择合适的声音 - 如果你有自己录制的声音文件,可以放到插件的 `whisperspeech/audio` 文件夹里 - 不同的声音适合不同的场景,多试几个找到最合适的 ### 4.4 性能优化建议 - 如果你的电脑配置不错(有独立显卡),可以开启 `torch_compile` 选项 - 如果生成速度很慢,可以尝试关闭 `torch_compile` 选项 - 长文本建议分批处理,避免一次性处理太多内容 ## 5. 常见问题解答 **Q:为什么安装后找不到节点?** A:重启 ComfyUI 试试,如果还是没有,检查一下是否正确安装了 dlib 库。 **Q:生成的声音听起来很奇怪怎么办?** A:试试调节 `cps` 参数,或者选择不同的 `speaker` 声音。 **Q:可以用中文吗?** A:可以的!直接在 Text 框里输入中文就行,插件会自动识别。 **Q:生成的文件保存在哪里?** A:默认保存在 ComfyUI 的 `output` 文件夹里,文件名会包含你设置的名称和时间戳。 **Q:电脑配置要求高吗?** A:一般的电脑就能用,但如果有独立显卡会更快。如果电脑配置不高,就别开启 `torch_compile` 选项。 **Q:一次最多能处理多少文字?** A:理论上没有限制,但建议单次不要超过 500 个字,太长的话分段处理效果更好。 ## 6. 实际应用场景 ### 6.1 内容创作 - 制作有声读物 - 为视频添加旁白 - 制作播客内容 - 语音导览制作 ### 6.2 教育培训 - 制作教学音频 - 语言学习材料 - 在线课程配音 ### 6.3 商业应用 - 广告配音 - 产品介绍音频 - 客服语音提示 ### 6.4 个人用途 - 给朋友录制个性化祝福 - 制作有趣的语音消息 - 帮助阅读障碍人士 ## 7. 高级技巧 ### 7.1 批量处理 如果你有很多文本需要转换,可以: 1. 准备多个 IF_WhisperSpeech 节点 2. 每个节点设置不同的 `file_name` 3. 同时处理多个文本 ### 7.2 与其他节点组合使用 这个插件生成的音频可以和其他音频处理节点配合: - 音频剪辑节点 - 音效添加节点 - 音量调节节点 ### 7.3 自定义声音库 你可以录制自己的声音样本,放到插件目录里创建专属的声音模型,让 AI 用你的声音说话! --- 这个插件真的很实用,不管是做视频配音还是制作有声内容都很方便。记住,熟练使用的关键就是多试多练,每个参数都调试一下,找到最适合你需求的设置!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com