# ComfyUI-WhisperX 插件:音频转文字和字幕制作的神器 ## 1. 插件简介 ComfyUI-WhisperX 是一个专门为音频转文字和字幕制作设计的插件,就像你手机里的语音识别功能一样,但功能更强大。它能够把音频文件(比如录音、视频中的声音)转换成文字,还能自动生成字幕文件,甚至可以识别多个说话人,并且支持翻译功能。 **插件官方地址:** https://github.com/AIFSH/ComfyUI-WhisperX **这个插件能为你做什么:** - 把音频文件转换成文字(就像听写一样) - 自动生成字幕文件(.srt格式) - 识别多个说话人(比如对话中的甲、乙、丙) - 把转换的文字翻译成其他语言 - 精确对齐时间轴(每个词都有准确的时间标记) ## 2. 如何安装 安装这个插件就像装手机软件一样简单: 1. **准备工作**:确保你的电脑能运行ffmpeg(这是处理音频视频的工具) - Windows用户:可以通过WingetUI自动安装 - Linux用户:运行命令 `apt update && apt install ffmpeg` 2. **下载插件**: ```bash git clone https://github.com/AIFSH/ComfyUI-WhisperX.git cd ComfyUI-WhisperX pip install -r requirements.txt ``` 3. **特别提醒**:如果你要使用说话人识别功能,需要到HuggingFace官网同意一些协议并获取访问令牌。 ## 3. 节点详细解析 ### 3.1 WhisperX Node(核心转录节点) 这是插件的主要节点,就像一个智能听写员,能把音频转换成文字。 #### 3.2 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 音频文件 | audio | 音频文件路径 | - | 就像选择要听写的录音文件 | 输入要转录的音频文件 | 选择你的MP3、WAV等音频文件 | | 模型类型 | model | tiny/base/small/medium/large | large | 选择听写员的"能力等级",越大越准确但越慢 | 选择Whisper模型的大小 | 新手建议用medium,追求准确度用large | | 批处理大小 | batch_size | 数字 | 16 | 一次处理多少段音频,像同时听写多少个片段 | 单次处理的音频段数量 | 电脑配置好可以设置大一点,比如32 | | 多说话人 | if_multiple_speaker | True/False | False | 是否要识别不同的说话人(比如对话中的不同人) | 是否启用说话人分离 | 如果是采访或对话,设置为True | | 认证令牌 | use_auth_token | 字符串 | - | 访问某些高级功能的"通行证" | HuggingFace的访问令牌 | 从HuggingFace获取后填入 | | 最少说话人数 | min_speakers | 数字 | 1 | 告诉系统最少有几个人在说话 | 预期的最少说话人数量 | 如果确定是2人对话,设置为2 | | 最多说话人数 | max_speakers | 数字 | 2 | 告诉系统最多有几个人在说话 | 预期的最多说话人数量 | 如果是小组讨论,可以设置为5 | #### 3.3 输出结果 | 输出名 (UI显示) | 输出名 (代码里) | 通俗解释 | 专业解释 | 你能拿来做什么 | | :--- | :--- | :--- | :--- | :--- | | 转录文本 | transcribed_text | 听写出来的完整文字 | 音频转录的文本结果 | 直接复制粘贴使用,或者继续加工 | | 对齐片段 | aligned_segments | 每段话的时间标记 | 包含时间戳的文本片段 | 制作字幕文件,知道每句话的时间 | | 说话人标签 | speaker_labels | 标记谁说了什么话 | 说话人识别结果 | 区分对话中的不同角色 | ### 3.4 Apply WhisperX Node(应用转录节点) 这是另一个重要节点,专门用来应用转录结果并进行翻译。 #### 3.5 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 音频输入 | audio | 音频波形数据 | - | 输入的音频信号,像录音笔里的声音 | 包含波形和采样率的音频数据 | 连接前面节点的音频输出 | | 模型选择 | model | tiny/base/small/medium/large | large | 选择转录"引擎"的性能级别 | Whisper模型大小选择 | 根据需要的准确度和速度选择 | | 是否翻译 | if_translate | True/False | False | 要不要把转录的文字翻译成其他语言 | 是否启用翻译功能 | 如果需要中英文对照,设置为True | | 翻译服务 | translator | google/bing/youdao等 | google | 选择用哪个翻译"助手" | 选择翻译服务提供商 | Google翻译比较准确,推荐使用 | | 目标语言 | to_language | zh/en/fr/de等 | zh | 要翻译成什么语言 | 翻译的目标语言代码 | zh是中文,en是英文,fr是法文 | #### 3.6 输出结果 | 输出名 (UI显示) | 输出名 (代码里) | 通俗解释 | 专业解释 | 你能拿来做什么 | | :--- | :--- | :--- | :--- | :--- | | 文本 | text | 转录出来的纯文字 | 转录的文本内容 | 直接使用或进一步编辑 | | 片段对齐 | segments_alignment | 每段话的开始和结束时间 | 带时间戳的文本段落 | 制作SRT字幕文件 | | 单词对齐 | words_alignment | 每个词的精确时间位置 | 词级别的时间对齐 | 制作精确的卡拉OK字幕效果 | | 翻译对齐 | translate_alignment | 翻译后文字的时间对齐 | 翻译文本的时间戳信息 | 制作双语字幕 | ## 4. 使用技巧和建议 ### 4.1 选择合适的模型 - **tiny模型**:速度最快,但准确度最低,适合快速测试 - **base模型**:平衡速度和准确度,适合日常使用 - **small模型**:准确度较好,速度适中 - **medium模型**:推荐选择,准确度和速度的最佳平衡 - **large模型**:准确度最高,但速度较慢,适合正式项目 ### 4.2 音频质量优化 - 确保音频清晰,减少背景噪音 - 如果是视频文件,先提取音频部分 - 推荐使用WAV或高质量MP3格式 ### 4.3 多说话人识别技巧 - 只有在真正需要区分不同说话人时才开启 - 准确设置最少和最多说话人数量 - 说话人声音差异越大,识别效果越好 ### 4.4 翻译功能使用 - 先完成转录,再进行翻译,这样准确度更高 - 选择可靠的翻译服务,Google翻译通常效果最好 - 对于专业术语较多的内容,建议人工校对翻译结果 ## 5. 常见问题解答 ### Q1:为什么转录结果不准确? **A1:** 可能原因包括: - 音频质量不好,有背景噪音 - 选择的模型太小(比如用了tiny模型) - 说话语速太快或发音不清晰 - 建议使用medium或large模型,并确保音频质量 ### Q2:多说话人识别效果不好怎么办? **A2:** - 确保已经正确设置最少和最多说话人数 - 检查是否有HuggingFace访问令牌 - 说话人声音特征要有明显差异 - 尝试调整音频质量 ### Q3:翻译功能不工作? **A3:** - 检查网络连接是否正常 - 确认翻译服务是否可用 - 尝试更换翻译服务提供商 - 检查目标语言代码是否正确 ### Q4:处理速度太慢怎么办? **A4:** - 减小模型大小(比如从large改为medium) - 增加批处理大小(如果内存足够) - 确保使用GPU加速(如果有显卡) - 缩短音频文件长度 ### Q5:生成的字幕文件格式不对? **A5:** - 确保使用了正确的输出节点 - 检查字幕文件的编码格式 - 验证时间戳是否正确对齐 ## 6. 扩展应用场景 ### 6.1 视频字幕制作 将你的视频文件先提取音频,然后使用这个插件生成字幕,再把字幕文件导入视频编辑软件。 ### 6.2 会议记录整理 把会议录音通过这个插件转换成文字,还能识别不同的发言人,大大提高会议记录效率。 ### 6.3 学习资料制作 把英文讲座或课程转录成文字,然后翻译成中文,制作双语学习资料。 ### 6.4 播客内容处理 为播客节目自动生成文字稿和字幕,提高内容的可访问性。 ### 6.5 直播内容归档 把直播内容转录成文字,方便后续搜索和引用。 记住,这个插件就像一个全能的语音助手,能帮你把声音变成文字,把文字变成其他语言,还能精确标记时间。熟练掌握这些功能,你就能在音视频处理方面事半功倍!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com