ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-Whisper插件使用教程 手把手教你安装配置

ComfyUI-Whisper插件使用教程 手把手教你安装配置

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-01
  • 30 次阅读
编程界的小学生
编程界的小学生

ComfyUI-Whisper 插件保姆级教程

1. 插件简介

插件地址: https://github.com/yuvraj108c/ComfyUI-Whisper

这个插件就像是给你的视频配上了一个超级聪明的"字幕小助手"!它能够:

  • 听懂视频里的声音:就像人耳朵一样,能听出视频里说了什么话
  • 自动生成字幕:把听到的话变成文字,贴在视频上
  • 支持多种语言:不管是中文、英文还是其他语言都能识别
  • 字幕样式自定义:可以调整字幕的颜色、大小、位置,就像装修房子一样随心所欲

简单来说,这个插件能让你的"哑巴视频"变成有字幕的"会说话视频",特别适合做短视频、教学视频或者给外语视频加字幕。

2. 如何安装

方法一:通过 ComfyUI Manager 安装(推荐)

  1. 打开 ComfyUI
  2. 找到 ComfyUI Manager(就像手机上的应用商店)
  3. 搜索 "ComfyUI-Whisper"
  4. 点击安装,等待完成

方法二:手动安装

  1. 下载插件文件到 ComfyUI 的 custom_nodes 文件夹
  2. 重启 ComfyUI
  3. 安装依赖包(就像给手机装必要的软件)

3. 节点详解

3.1 Apply Whisper 节点 - 语音识别大师

这个节点就像一个"超级耳朵",专门负责听懂视频里的声音,然后把听到的话变成文字。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
audioaudioAUDIO类型-就像给机器人一个音频文件让它听输入的音频数据流,包含波形和采样率信息连接视频加载节点的音频输出
modelmodelbase/tiny/small/medium/largemedium选择"耳朵"的灵敏度,越大越准确但越慢Whisper模型大小,影响识别精度和速度普通视频用medium,要求高用large
languagelanguageauto/各种语言名auto告诉机器人这是什么语言,auto就是让它自己猜指定识别语言,auto为自动检测中文视频选Chinese,英文选English

3.2 Add Subtitles To Frames 节点 - 字幕装饰师

这个节点就像一个"字幕贴纸机",把识别出的文字漂漂亮亮地贴到视频画面上。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imagesimagesIMAGE类型-就像给装饰师一堆照片让它加字输入的视频帧序列连接视频加载节点的图像输出
alignmentalignmentwhisper_alignment类型-告诉装饰师什么时候该贴什么字语音对齐数据,包含时间戳和文本连接Apply Whisper节点的输出
font_colorfont_color颜色名称字符串white就像选择笔的颜色写字字体颜色设置white(白色)、red(红色)、blue(蓝色)
font_familyfont_family字体文件名Roboto-Regular.ttf就像选择不同的笔迹风格字体样式选择中文推荐Chanakya,英文推荐Roboto
font_sizefont_size整数100控制字的大小,就像调节放大镜字体大小像素值小屏幕用50-80,大屏幕用100-150
x_positionx_position整数100控制字幕左右位置,就像贴纸的横向位置字幕水平位置坐标0是最左边,数字越大越靠右
y_positiony_position整数100控制字幕上下位置,就像贴纸的纵向位置字幕垂直位置坐标0是最上面,数字越大越靠下
center_xcenter_xTrue/FalseTrue是否让字幕左右居中,就像文档的居中对齐水平居中对齐开关True让字幕在屏幕中间,False按x_position定位
center_ycenter_yTrue/FalseTrue是否让字幕上下居中,就像垂直居中垂直居中对齐开关True让字幕垂直居中,False按y_position定位
video_fpsvideo_fps浮点数24.0告诉机器每秒有多少张图片,就像翻书速度视频帧率,用于时间同步一般视频24fps,高清视频30fps或60fps

3.3 Add Subtitles To Background 节点 - 艺术字幕创作师

这个节点就像一个"艺术家",能把字幕做成像云朵一样飘散的艺术效果,而不是普通的一行字。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
imagesimagesIMAGE类型-给艺术家一堆画布让它创作输入的视频帧序列连接视频加载节点的图像输出
alignmentalignmentwhisper_alignment类型-告诉艺术家什么时候该画什么字语音对齐数据,包含时间戳和文本连接Apply Whisper节点的输出
font_familyfont_family字体文件名Roboto-Regular.ttf选择画笔的字体风格字体样式选择艺术效果推荐用粗体字Roboto-Bold.ttf
num_wordsnum_words整数25控制同时显示多少个字,就像撒多少颗星星同时显示的文字数量少一点显得简洁,多一点显得丰富
text_displacementtext_displacement整数10控制字移动的步长,就像走路的步子大小文字位置随机偏移量数字越大字幕移动越活泼
font_size_displacementfont_size_displacement整数3控制字体大小变化幅度,就像呼吸的起伏字体大小随机变化量数字越大字体大小变化越明显
min_font_sizemin_font_size整数15设置字体最小尺寸,就像设置最小号字字体大小下限太小看不清,建议不低于12
max_font_sizemax_font_size整数75设置字体最大尺寸,就像设置最大号字字体大小上限太大占地方,建议不超过100
video_fpsvideo_fps浮点数24.0告诉艺术家画画的节拍速度视频帧率,用于时间同步和原视频保持一致

3.4 Resize Cropped Subtitles 节点 - 字幕位置调整师

这个节点就像一个"搬家师傅",专门负责把裁剪好的字幕搬到正确的位置上。

参数详解

参数名 (UI显示)参数名 (代码里)参数值建议值通俗解释 (能干嘛的)专业解释怎么用/举个例子
cropped_subtitlescropped_subtitlesIMAGE类型-给搬家师傅一堆裁剪好的字幕贴纸裁剪后的字幕图像序列连接Add Subtitles To Frames节点的cropped_subtitles输出
original_framesoriginal_framesIMAGE类型-给搬家师傅原始的画布尺寸参考原始视频帧,用于获取尺寸信息连接视频加载节点的图像输出
subtitle_coordsubtitle_coordsubtitle_coord类型-告诉搬家师傅每个贴纸应该贴在哪里字幕位置坐标信息连接Add Subtitles To Frames节点的subtitle_coord输出

4. 使用技巧和建议

4.1 选择合适的模型

  • tiny模型:就像快餐,速度快但质量一般,适合测试
  • base模型:就像家常菜,速度和质量都还行,适合日常使用
  • medium模型:就像精品菜,质量不错速度也可以,推荐使用
  • large模型:就像大餐,质量最好但速度慢,适合重要项目

4.2 字幕位置调整

  • 居中显示:适合大部分情况,看起来专业
  • 底部显示:传统字幕位置,不遮挡画面内容
  • 自定义位置:根据视频内容调整,避开重要画面

4.3 字体选择建议

  • 中文内容:推荐使用 Chanakya Regular.ttf
  • 英文内容:推荐使用 Roboto-Regular.ttf 或 Roboto-Bold.ttf
  • 艺术效果:可以尝试粗体字体增强视觉效果

4.4 性能优化

  • 短视频可以用大模型获得更好效果
  • 长视频建议用medium模型平衡速度和质量
  • 如果电脑配置较低,可以先用tiny模型测试流程

5. 常见问题解答

Q1:为什么识别出来的字幕不准确?

A1: 就像人听不清楚话一样,可能是:

  • 音频质量不好(有杂音、声音太小)
  • 选择的模型太小(试试用medium或large)
  • 语言设置不对(手动选择正确语言而不是auto)

Q2:字幕位置不对怎么办?

A2: 就像贴纸贴歪了一样:

  • 检查center_x和center_y设置
  • 调整x_position和y_position数值
  • 确保video_fps和原视频一致

Q3:字幕显示时间不对?

A3: 就像手表走得不准:

  • 确认video_fps设置正确
  • 检查音频和视频是否同步
  • 重新生成语音识别结果

Q4:字体显示不出来?

A4: 就像笔没墨水:

  • 检查字体文件是否存在
  • 尝试使用默认字体
  • 确认字体支持你要显示的语言

Q5:处理速度太慢?

A5: 就像电脑太卡:

  • 使用较小的模型(tiny或base)
  • 缩短视频长度进行测试
  • 关闭其他占用资源的程序

6. 工作流程建议

基础字幕流程:

  1. 加载视频 → Apply Whisper(语音识别)
  2. Apply Whisper → Add Subtitles To Frames(添加字幕)
  3. 保存结果

艺术字幕流程:

  1. 加载视频 → Apply Whisper(语音识别)
  2. Apply Whisper → Add Subtitles To Background(艺术字幕)
  3. 保存结果

高级处理流程:

  1. 加载视频 → Apply Whisper(语音识别)
  2. Apply Whisper → Add Subtitles To Frames(添加字幕)
  3. Add Subtitles To Frames → Resize Cropped Subtitles(调整位置)
  4. 保存结果

7. 总结

这个ComfyUI-Whisper插件就像是给你的视频配了一个全能的字幕助手,从听懂声音到美化字幕,一条龙服务。4个节点各司其职:

  • Apply Whisper:负责"听"
  • Add Subtitles To Frames:负责"贴"
  • Add Subtitles To Background:负责"美化"
  • Resize Cropped Subtitles:负责"调整"

掌握了这些节点的用法,你就能轻松制作出专业级的字幕视频了!记住,多练习多尝试,每个参数都调整一下看看效果,很快你就能成为字幕制作高手!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号