ComfyUI AV-FunASR 语音识别插件保姆级教程
1. 插件简介
ComfyUI-AV-FunASR 是一个帮你把语音转换成文字的小帮手。就像你平时用微信语音转文字一样,它可以帮你把音频文件中的说话内容转成文字。
GitHub 地址:https://github.com/avenstack/ComfyUI-AV-FunASR
2. 安装方法
就像在手机上安装新单,你只需要:
- 打开你的 ComfyUI 文件夹
- 找到
custom_nodes文件夹 - 在这里输入下面这行命令(就像复制粘贴一样):
git clone https://github.com/avenstack/ComfyUI-AV-FunASR
- 等它自己装好就行啦!
3. 节点详解
3.1 LoadAudio 节点
这就像是一个音频播放器的"打开文件"按钮,帮你把音频文件装载进来。
参数表格: | 参数名(UI显示) | 参数名(代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用例子 | |----------------|----------------|---------|---------|------------|------------|------------| | 音频文件路径 | audio_path | 字符串 | - | 你要转换的音频文件在电脑里的位置 | 音频文件的系统路径 | "C:/我的音乐/说话.mp3" |
3.2 ASRInference 节点
这就是负责听写的小助手,它会仔细"听"音频内容,然后把听到的内容写成文字。
参数表格: | 参数名(UI显示) | 参数名(代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用例子 | |----------------|----------------|---------|---------|------------|------------|------------| | 模型选择 | model_name | 字符串 | "paraformer-zh" | 选择识别引擎,就像选择翻译器一样 | ASR模型名称 | 中文就选"paraformer-zh" | | 语音分段时长 | chunk_size | 整数 | 20 | 每次听多长时间的内容,单位是秒 | 音频分块大小 | 设置为20就是每次听20秒 | | 重叠时长 | overlap_size | 整数 | 4 | 前后内容要重复听几秒,防止漏掉衔接处的话 | 音频片段重叠长度 | 一般设4秒就够了 |
4. 使用技巧和建议
- 音频最好是清晰的人声,背景噪音越少越好
- 如果识别不准,试试调大语音分段时长
- 中文识别选"paraformer-zh"效果最好
- MP3、WAV 格式的音频文件都可以用
5. 常见问题解答
Q:为什么我的音频文件打不开? A:检查一下文件路径是不是写对了,要用正斜杠(/)而不是反斜杠()
Q:识别出来的文字很乱,怎么办? A:可能是音频质量不好,换个清晰点的录音试试
Q:处理很长的音频要等很久? A:是的,因为要一段一段仔细听,就像人要一句一句听完才能记下来一样
6. 实用小贴士
- 建议先用几个短音频试试效果
- 如果是长音频,可以先切成小段来处理
- 处理完的文字可以保存下来,方便以后使用
记住:这个插件就像是一个很耐心的"听写员",你给它听什么,它就帮你写下来什么。只要音频够清晰,它就能帮你省下很多手动记录的时间!