ComfyUI-Whisper 插件保姆级教程
1. 插件简介
插件地址: https://github.com/yuvraj108c/ComfyUI-Whisper
这个插件就像是给你的视频配上了一个超级聪明的"字幕小助手"!它能够:
- 听懂视频里的声音:就像人耳朵一样,能听出视频里说了什么话
- 自动生成字幕:把听到的话变成文字,贴在视频上
- 支持多种语言:不管是中文、英文还是其他语言都能识别
- 字幕样式自定义:可以调整字幕的颜色、大小、位置,就像装修房子一样随心所欲
简单来说,这个插件能让你的"哑巴视频"变成有字幕的"会说话视频",特别适合做短视频、教学视频或者给外语视频加字幕。
2. 如何安装
方法一:通过 ComfyUI Manager 安装(推荐)
- 打开 ComfyUI
- 找到 ComfyUI Manager(就像手机上的应用商店)
- 搜索 "ComfyUI-Whisper"
- 点击安装,等待完成
方法二:手动安装
- 下载插件文件到 ComfyUI 的 custom_nodes 文件夹
- 重启 ComfyUI
- 安装依赖包(就像给手机装必要的软件)
3. 节点详解
3.1 Apply Whisper 节点 - 语音识别大师
这个节点就像一个"超级耳朵",专门负责听懂视频里的声音,然后把听到的话变成文字。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| audio | audio | AUDIO类型 | - | 就像给机器人一个音频文件让它听 | 输入的音频数据流,包含波形和采样率信息 | 连接视频加载节点的音频输出 |
| model | model | base/tiny/small/medium/large | medium | 选择"耳朵"的灵敏度,越大越准确但越慢 | Whisper模型大小,影响识别精度和速度 | 普通视频用medium,要求高用large |
| language | language | auto/各种语言名 | auto | 告诉机器人这是什么语言,auto就是让它自己猜 | 指定识别语言,auto为自动检测 | 中文视频选Chinese,英文选English |
3.2 Add Subtitles To Frames 节点 - 字幕装饰师
这个节点就像一个"字幕贴纸机",把识别出的文字漂漂亮亮地贴到视频画面上。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| images | images | IMAGE类型 | - | 就像给装饰师一堆照片让它加字 | 输入的视频帧序列 | 连接视频加载节点的图像输出 |
| alignment | alignment | whisper_alignment类型 | - | 告诉装饰师什么时候该贴什么字 | 语音对齐数据,包含时间戳和文本 | 连接Apply Whisper节点的输出 |
| font_color | font_color | 颜色名称字符串 | white | 就像选择笔的颜色写字 | 字体颜色设置 | white(白色)、red(红色)、blue(蓝色) |
| font_family | font_family | 字体文件名 | Roboto-Regular.ttf | 就像选择不同的笔迹风格 | 字体样式选择 | 中文推荐Chanakya,英文推荐Roboto |
| font_size | font_size | 整数 | 100 | 控制字的大小,就像调节放大镜 | 字体大小像素值 | 小屏幕用50-80,大屏幕用100-150 |
| x_position | x_position | 整数 | 100 | 控制字幕左右位置,就像贴纸的横向位置 | 字幕水平位置坐标 | 0是最左边,数字越大越靠右 |
| y_position | y_position | 整数 | 100 | 控制字幕上下位置,就像贴纸的纵向位置 | 字幕垂直位置坐标 | 0是最上面,数字越大越靠下 |
| center_x | center_x | True/False | True | 是否让字幕左右居中,就像文档的居中对齐 | 水平居中对齐开关 | True让字幕在屏幕中间,False按x_position定位 |
| center_y | center_y | True/False | True | 是否让字幕上下居中,就像垂直居中 | 垂直居中对齐开关 | True让字幕垂直居中,False按y_position定位 |
| video_fps | video_fps | 浮点数 | 24.0 | 告诉机器每秒有多少张图片,就像翻书速度 | 视频帧率,用于时间同步 | 一般视频24fps,高清视频30fps或60fps |
3.3 Add Subtitles To Background 节点 - 艺术字幕创作师
这个节点就像一个"艺术家",能把字幕做成像云朵一样飘散的艺术效果,而不是普通的一行字。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| images | images | IMAGE类型 | - | 给艺术家一堆画布让它创作 | 输入的视频帧序列 | 连接视频加载节点的图像输出 |
| alignment | alignment | whisper_alignment类型 | - | 告诉艺术家什么时候该画什么字 | 语音对齐数据,包含时间戳和文本 | 连接Apply Whisper节点的输出 |
| font_family | font_family | 字体文件名 | Roboto-Regular.ttf | 选择画笔的字体风格 | 字体样式选择 | 艺术效果推荐用粗体字Roboto-Bold.ttf |
| num_words | num_words | 整数 | 25 | 控制同时显示多少个字,就像撒多少颗星星 | 同时显示的文字数量 | 少一点显得简洁,多一点显得丰富 |
| text_displacement | text_displacement | 整数 | 10 | 控制字移动的步长,就像走路的步子大小 | 文字位置随机偏移量 | 数字越大字幕移动越活泼 |
| font_size_displacement | font_size_displacement | 整数 | 3 | 控制字体大小变化幅度,就像呼吸的起伏 | 字体大小随机变化量 | 数字越大字体大小变化越明显 |
| min_font_size | min_font_size | 整数 | 15 | 设置字体最小尺寸,就像设置最小号字 | 字体大小下限 | 太小看不清,建议不低于12 |
| max_font_size | max_font_size | 整数 | 75 | 设置字体最大尺寸,就像设置最大号字 | 字体大小上限 | 太大占地方,建议不超过100 |
| video_fps | video_fps | 浮点数 | 24.0 | 告诉艺术家画画的节拍速度 | 视频帧率,用于时间同步 | 和原视频保持一致 |
3.4 Resize Cropped Subtitles 节点 - 字幕位置调整师
这个节点就像一个"搬家师傅",专门负责把裁剪好的字幕搬到正确的位置上。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| cropped_subtitles | cropped_subtitles | IMAGE类型 | - | 给搬家师傅一堆裁剪好的字幕贴纸 | 裁剪后的字幕图像序列 | 连接Add Subtitles To Frames节点的cropped_subtitles输出 |
| original_frames | original_frames | IMAGE类型 | - | 给搬家师傅原始的画布尺寸参考 | 原始视频帧,用于获取尺寸信息 | 连接视频加载节点的图像输出 |
| subtitle_coord | subtitle_coord | subtitle_coord类型 | - | 告诉搬家师傅每个贴纸应该贴在哪里 | 字幕位置坐标信息 | 连接Add Subtitles To Frames节点的subtitle_coord输出 |
4. 使用技巧和建议
4.1 选择合适的模型
- tiny模型:就像快餐,速度快但质量一般,适合测试
- base模型:就像家常菜,速度和质量都还行,适合日常使用
- medium模型:就像精品菜,质量不错速度也可以,推荐使用
- large模型:就像大餐,质量最好但速度慢,适合重要项目
4.2 字幕位置调整
- 居中显示:适合大部分情况,看起来专业
- 底部显示:传统字幕位置,不遮挡画面内容
- 自定义位置:根据视频内容调整,避开重要画面
4.3 字体选择建议
- 中文内容:推荐使用 Chanakya Regular.ttf
- 英文内容:推荐使用 Roboto-Regular.ttf 或 Roboto-Bold.ttf
- 艺术效果:可以尝试粗体字体增强视觉效果
4.4 性能优化
- 短视频可以用大模型获得更好效果
- 长视频建议用medium模型平衡速度和质量
- 如果电脑配置较低,可以先用tiny模型测试流程
5. 常见问题解答
Q1:为什么识别出来的字幕不准确?
A1: 就像人听不清楚话一样,可能是:
- 音频质量不好(有杂音、声音太小)
- 选择的模型太小(试试用medium或large)
- 语言设置不对(手动选择正确语言而不是auto)
Q2:字幕位置不对怎么办?
A2: 就像贴纸贴歪了一样:
- 检查center_x和center_y设置
- 调整x_position和y_position数值
- 确保video_fps和原视频一致
Q3:字幕显示时间不对?
A3: 就像手表走得不准:
- 确认video_fps设置正确
- 检查音频和视频是否同步
- 重新生成语音识别结果
Q4:字体显示不出来?
A4: 就像笔没墨水:
- 检查字体文件是否存在
- 尝试使用默认字体
- 确认字体支持你要显示的语言
Q5:处理速度太慢?
A5: 就像电脑太卡:
- 使用较小的模型(tiny或base)
- 缩短视频长度进行测试
- 关闭其他占用资源的程序
6. 工作流程建议
基础字幕流程:
- 加载视频 → Apply Whisper(语音识别)
- Apply Whisper → Add Subtitles To Frames(添加字幕)
- 保存结果
艺术字幕流程:
- 加载视频 → Apply Whisper(语音识别)
- Apply Whisper → Add Subtitles To Background(艺术字幕)
- 保存结果
高级处理流程:
- 加载视频 → Apply Whisper(语音识别)
- Apply Whisper → Add Subtitles To Frames(添加字幕)
- Add Subtitles To Frames → Resize Cropped Subtitles(调整位置)
- 保存结果
7. 总结
这个ComfyUI-Whisper插件就像是给你的视频配了一个全能的字幕助手,从听懂声音到美化字幕,一条龙服务。4个节点各司其职:
- Apply Whisper:负责"听"
- Add Subtitles To Frames:负责"贴"
- Add Subtitles To Background:负责"美化"
- Resize Cropped Subtitles:负责"调整"
掌握了这些节点的用法,你就能轻松制作出专业级的字幕视频了!记住,多练习多尝试,每个参数都调整一下看看效果,很快你就能成为字幕制作高手!