1. 插件简介
HeyGem 是一款超级厉害的 ComfyUI 数字人插件,它能让你轻松制作出会说话、会动的数字人视频!这个插件来自 GitHub:https://github.com/billwuhao/Comfyui_HeyGem
这个插件最大的特点就是能够根据你提供的音频和视频,生成一个嘴型和声音完美匹配的数字人视频。简单来说,你给它一段语音和一个人物视频,它就能让视频中的人物"开口说话",而且看起来非常自然!
目前(2025.05.22)这是最好的开源数字人生成工具,没有之一!它可以生成全身的、动态的、任意分辨率的数字人,让你的视频创作更加生动有趣。
2. 如何安装
安装 HeyGem 插件需要几个步骤,但别担心,我会一步一步教你:
2.1 基本插件安装
首先,你需要安装 ComfyUI HeyGem 插件本身:
- 打开你的命令行工具(Windows 用户可以用 CMD 或 PowerShell,Mac 用户可以用终端)
- 进入你的 ComfyUI 的自定义节点文件夹:
cd ComfyUI/custom_nodes - 下载 HeyGem 插件:
git clone https://github.com/billwuhao/Comfyui_HeyGem.git
2.2 安装 Docker(必需的)
HeyGem 插件需要 Docker 来运行,因为它里面包含了很多复杂的程序,Docker 就像一个大箱子,把这些程序都装在一起,让它们能够正常工作。
Windows 用户安装 Docker:
-
首先安装 WSL(Windows 的 Linux 子系统):
- 访问 https://github.com/microsoft/WSL/releases 下载
wsl.2.5.7.0.x64.msi - 如果你已经安装了 WSL,可以用管理员权限运行
wsl --update来更新
- 访问 https://github.com/microsoft/WSL/releases 下载
-
安装 Docker:
- 访问 https://www.docker.com/ 下载 AMD64 版本
- 安装完成后启动 Docker
- 注意:Docker 默认会下载到 C 盘,大约需要 14GB 空间,你可以在设置中修改下载位置
Mac 用户安装 Docker:
- 访问 https://www.docker.com/ 下载 Mac 版本的 Docker Desktop
- 安装并启动 Docker Desktop
Linux 用户安装 Docker(以 Ubuntu 为例):
-
安装 Docker:
sudo apt update sudo apt install docker.io sudo apt install docker-compose -
安装驱动(如果你有 NVIDIA 显卡):
- 运行
nvidia-smi检查是否已安装 - 如果没有安装,参考 NVIDIA 官方文档:https://www.nvidia.cn/drivers/lookup/
- 运行
-
安装 NVIDIA 容器工具包:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker
2.3 首次使用注意事项
第一次运行 HeyGem 节点时,它需要下载 Docker 镜像,这个过程大约需要 30 分钟(取决于你的网速)。这个镜像大约需要 14GB 的空间,所以请确保你有足够的磁盘空间。
每次使用 HeyGem 前,都需要先启动 Docker。
3. 节点详解
HeyGem 插件只包含一个节点:HeyGem AI Avatar(显示为"HeyGem AI Avatar",在节点菜单中位于"🎤MW/MW-HeyGem"分类下)。
3.1 HeyGem AI Avatar 节点是干嘛的?
这个节点就像一个神奇的"配音师",它能让你的视频中的人物按照你提供的音频内容开口说话。想象一下,你有一段录好的语音,还有一个人物视频,这个节点就能让视频中的人物"说出"你录制的语音内容,嘴型和声音完美匹配!
简单来说,它的工作流程是:
- 你给它一段音频(比如你录的一段话)
- 你给它一个视频(比如一个人物的视频)
- 它会分析音频内容,然后让视频中的人物"说出"这段话
- 最后输出一个新的视频,里面的人物嘴型和你的音频完美匹配
3.2 参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| audio | audio | AUDIO类型 | - | 你想让数字人说的话(音频) | 输入的音频数据,包含波形和采样率信息 | 连接一个音频节点,比如LoadAudioMW节点加载的音频 |
| video | video | IMAGE类型 | - | 你的数字人视频或图片 | 输入的视频帧,以图像序列形式表示 | 连接一个视频节点,比如VHS_LoadVideo节点加载的视频 |
| mode | mode | pingpong/repeat | pingpong | 视频太短时如何延长到配合音频 | 决定如何处理视频帧以匹配音频时长 | 如果音频比视频长,选择"pingpong"会让视频来回播放;选择"repeat"会让视频循环播放 |
| stop_heygem | stop_heygem | true/false | false | 处理完是否关闭后台程序 | 是否在任务完成后停止HeyGem服务 | 如果设为true,处理完后会关闭Docker容器;设为false则保持运行,方便下次使用 |
| fps | fps | 1.0-60.0 | 24.0 | 视频的流畅度 | 输出视频的帧率(每秒多少帧) | 一般设为24或25,数值越大视频越流畅,但处理时间也越长 |
3.3 输出说明
| 输出名 (UI显示) | 输出名 (代码里) | 输出类型 | 通俗解释 (是啥) | 专业解释 | 怎么用 |
|---|---|---|---|---|---|
| VIDEO | VIDEO | IMAGE | 生成好的会说话的视频 | 处理后的视频帧序列 | 可以连接到VHS_VideoCombine节点保存为视频文件 |
4. 使用技巧和建议
4.1 视频和音频匹配技巧
-
帧率保持一致:输入视频的帧率最好与合成帧率保持一致,这样生成的效果会更好。
-
视频长度处理:
- 如果你的视频比音频短:可以使用"pingpong"模式让视频来回播放,或使用"repeat"模式让视频循环播放
- 如果你的视频比音频长:插件会自动截取与音频时长相匹配的部分
-
视频质量:输入的视频质量越高,生成的效果就越好。尽量使用清晰、光线充足的视频。
-
音频清晰度:确保你的音频清晰,没有太多背景噪音,这样生成的口型会更准确。
4.2 Docker使用技巧
-
预先启动Docker:在使用HeyGem前,确保Docker已经启动,这样可以节省等待时间。
-
空间管理:Docker镜像大约需要14GB空间,确保你的硬盘有足够空间。
-
保持服务运行:如果你打算连续使用多次,可以将stop_heygem参数设为false,这样不会每次都重启服务。
4.3 性能优化
-
适当的帧率:帧率不需要设置得太高,24-30fps对于大多数情况已经足够了。
-
处理长视频:处理长视频时,可能会占用较多CPU资源,建议关闭其他不必要的程序。
-
分辨率选择:如果处理速度太慢,可以尝试降低视频分辨率。
5. 常见问题解答
5.1 安装问题
问题:安装Docker后,运行节点时提示"Docker daemon not running"怎么办?
解答:这表示Docker没有启动。Windows用户需要打开Docker Desktop应用;Mac用户也需要启动Docker Desktop;Linux用户可以运行sudo systemctl start docker命令启动Docker服务。
问题:插件安装成功,但在ComfyUI中找不到HeyGem节点怎么办?
解答:重启ComfyUI,然后在节点菜单中的"🎤MW/MW-HeyGem"分类下查找"HeyGem AI Avatar"节点。
5.2 使用问题
问题:生成的视频中人物嘴型不匹配怎么办?
解答:可能是因为输入视频的帧率与设置的fps不一致。尝试将fps参数调整为与输入视频相同的帧率。
问题:处理时间太长怎么办?
解答:处理时间与视频长度、分辨率和帧率有关。可以尝试减小视频分辨率或降低帧率来加快处理速度。
问题:出现"Request failed"错误怎么办?
解答:这通常是因为Docker服务未正确启动或网络问题。确保Docker正在运行,并检查网络连接。
问题:生成的视频没有声音怎么办?
解答:HeyGem节点输出的是视频帧,需要使用VHS_VideoCombine节点将视频帧与原始音频合并才能得到有声视频。
5.3 质量问题
问题:如何提高生成视频的质量?
解答:使用高质量的输入视频和清晰的音频;确保视频中人物面部清晰可见;尝试不同的帧率设置找到最佳效果。
问题:生成的视频有水印怎么办?
解答:当前版本的HeyGem已经设置了无水印模式(代码中的'watermark_switch': 0),所以不应该有水印。如果出现水印,可能是Docker镜像版本问题,尝试更新Docker镜像。
6. 实用工作流示例
HeyGem插件提供了两个示例工作流,我来详细解释一下它们的用途:
6.1 加载音频长度相同的视频
这个工作流适合当你的视频长度与音频长度大致相同的情况。工作流程如下:
- 使用LoadAudioMW节点加载音频
- 使用VHS_LoadVideo节点加载视频
- 将音频和视频连接到HeyGem AI Avatar节点
- 设置适当的帧率(如25fps)
- 将HeyGem输出连接到VHS_VideoCombine节点保存最终视频
这种方式最简单直接,适合已经准备好合适长度视频的情况。
6.2 扩展视频到音频长度
这个工作流适合当你的视频比音频短,需要延长视频以匹配音频长度的情况。工作流程如下:
- 使用LoadAudioMW节点加载较长的音频
- 使用VHS_LoadVideo节点加载较短的视频
- 将音频和视频连接到HeyGem AI Avatar节点
- 设置mode参数为"pingpong"或"repeat"
- 将HeyGem输出连接到VHS_VideoCombine节点保存最终视频
这种方式会自动延长视频以匹配音频长度,非常适合处理短视频配长音频的情况。
7. 总结
HeyGem是一个非常强大的ComfyUI数字人生成插件,它能让你轻松创建出嘴型与音频完美匹配的数字人视频。虽然安装过程需要一些技术步骤(主要是Docker的安装),但一旦设置完成,使用起来非常简单直观。
无论你是想制作教学视频、营销内容,还是娱乐作品,HeyGem都能帮你实现数字人说话的效果,让你的创作更加生动有趣!
记住,使用前确保Docker已启动,第一次使用时需要耐心等待Docker镜像下载完成。之后的使用就会非常顺畅了。
希望这份保姆级教程能帮助你轻松掌握HeyGem插件的使用方法,开启你的数字人创作之旅!