ComfyUI-FramePackWrapper_PlusOne 插件保姆级教程
1. 插件简介
GitHub地址: https://github.com/xhiroga/ComfyUI-FramePackWrapper_PlusOne
ComfyUI-FramePackWrapper_PlusOne是一个从ComfyUI-FramePackWrapper和ComfyUI-FramePackWrapper_Plus衍生出来的插件,包含FramePack的单帧推理节点(支持kisekaeichi方法)。
这个插件有什么用?
想象一下你有一张静态图片,想要让它动起来变成视频,这个插件就是专门干这个的!它就像一个"图片变视频"的魔法工具。更厉害的是,它还支持一种叫"单帧推理"的技术,就是说你只需要给它一张图片,它就能生成一整段视频,而不需要你提供很多张图片。
主要功能特点:
- 图片变视频:把一张静态图片转换成动态视频
- 单帧推理:只需要一张图片就能生成视频(包括特殊的kisekaeichi方法)
- F1取样器支持:使用改进的F1视频生成方法,让视频质量更高,时间连贯性更好
- LoRA集成:完全支持HunyuanVideo的LoRA模型
- 时间戳提示:可以在视频的不同时间点使用不同的文字描述
- 分辨率控制:自动找到最佳的视频尺寸
- 灵活输入:既可以用参考图片,也可以从空白开始创建
2. 如何安装
第一步:下载插件
- 打开电脑的命令行工具(Windows用户按Win+R,输入cmd后回车)
- 进入你的ComfyUI插件文件夹:
cd ComfyUI/custom_nodes
- 下载插件:
git clone https://github.com/xhiroga/ComfyUI-FramePackWrapper_PlusOne.git
第二步:安装依赖包
pip install -r requirements.txt
第三步:下载模型文件
你需要下载以下模型文件并放到ComfyUI的models文件夹中:
FramePackI2V_HY模型:
FramePack_F1_I2V_HY模型:
CLIP Vision模型:
文本编码器和VAE:
3. 节点详细解析
基于该插件的功能描述和它继承自的原始FramePackWrapper系列插件,这个插件主要包含以下几个核心节点:
3.1 FramePack模型加载器节点
这个节点就像是"把视频生成大脑装进ComfyUI"的工具,它负责加载那些能够理解图片并生成视频的智能模型。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型路径 | model_path | 文件路径 | 根据下载的模型文件路径 | 就像告诉程序"视频生成大脑"放在电脑的哪个位置 | 指定FramePack模型文件的存储位置 | 选择你下载的FramePackI2V_HY.safetensors文件 |
| 精度类型 | dtype | fp16/bf16/fp32 | bf16 | 决定计算的精确程度,就像画画时选择粗笔还是细笔 | 设置模型运行时的数值精度 | 显存够用选bf16,显存不够选fp16 |
| 设备 | device | auto/cpu/cuda | auto | 选择用电脑的哪个部分来运行,就像选择用手写还是用打字机 | 指定模型运行的硬件设备 | 有显卡选auto,没显卡选cpu |
3.2 FramePack单帧推理节点
这是这个插件最特别的节点,就像是"用一张照片讲故事"的魔法师,它能从一张图片开始,想象出整个视频的内容。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入图片 | input_image | 图片 | 必填 | 就像给魔法师看一张照片,让它知道要基于什么来创造视频 | 作为视频生成参考的输入图像 | 拖入一张你想要动起来的图片 |
| 提示词 | prompt | 文本 | 详细描述 | 告诉魔法师你想要什么样的动作和场景,就像给导演的拍摄指令 | 描述视频内容和动作的文本提示 | "一个女孩在花园里慢慢走动,微风吹动她的头发" |
| 反向提示词 | negative_prompt | 文本 | 可选 | 告诉魔法师你不想要什么,就像说"不要下雨,不要太暗" | 指定不希望在视频中出现的内容 | "模糊,低质量,扭曲" |
| 推理步数 | steps | 数字 | 20-50 | 就像给魔法师更多时间来完善作品,步数越多越精细 | 扩散模型的去噪步数 | 质量要求高用50,速度要求快用20 |
| 引导强度 | guidance_scale | 数字 | 7.5 | 控制魔法师多听话,数字越大越按你的要求做 | 控制模型对提示词的遵循程度 | 想要完全按提示词来用10,想要更自然用5 |
| 种子值 | seed | 数字 | 随机 | 就像抽奖的号码,相同号码会得到相同结果 | 控制随机性的种子值 | 想要重现相同结果就用相同数字 |
| 视频长度 | video_length | 数字 | 5-30 | 决定视频有多长,就像决定电影是短片还是长片 | 生成视频的帧数长度 | 短视频用5秒,长视频用30秒 |
| 帧率 | fps | 数字 | 24-30 | 决定视频有多流畅,就像翻书速度 | 每秒播放的帧数 | 流畅效果用30,节省空间用24 |
| kisekaeichi模式 | kisekaeichi_mode | 布尔值 | false | 这是一种特殊的生成方式,就像给魔法师一个特殊的法术书 | 启用kisekaeichi单帧推理方法 | 需要特定LoRA时开启 |
3.3 FramePack F1取样器节点
这个节点就像是"视频质量提升器",它使用更先进的方法来生成视频,让画面更清晰,动作更连贯。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型输入 | model | 模型对象 | 必填 | 就像给质量提升器装上"大脑" | 接收FramePack模型 | 连接模型加载器的输出 |
| 输入图片 | input_image | 图片 | 必填 | 提供要处理的原始图片 | 作为视频生成基础的图像 | 连接图片加载器或上一个节点 |
| 提示词 | prompt | 文本 | 详细描述 | 描述你想要的视频内容和动作 | 指导视频生成的文本描述 | "优雅的芭蕾舞者在舞台上旋转" |
| F1强度 | f1_strength | 数字 | 0.8 | 控制F1技术的影响程度,就像调节画质增强器的强度 | F1采样方法的强度参数 | 追求质量用0.9,平衡效果用0.8 |
| 时间一致性 | temporal_consistency | 数字 | 0.5 | 控制视频前后帧的连贯性,就像电影镜头的流畅度 | 控制视频时间连贯性的参数 | 要求连贯用0.8,允许变化用0.3 |
| 噪声强度 | noise_strength | 数字 | 1.0 | 控制生成过程中的随机性,就像画画时的笔触变化 | 控制噪声注入强度 | 追求稳定用0.8,增加变化用1.2 |
3.4 LoRA权重应用节点
这个节点就像是"风格化妆师",它能给你的视频添加特定的艺术风格或者特殊效果。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 模型输入 | model | 模型对象 | 必填 | 接收要"化妆"的基础模型 | 输入的基础FramePack模型 | 连接模型加载器 |
| LoRA文件 | lora_path | 文件路径 | 必填 | 选择要使用的"化妆盒"(风格文件) | LoRA权重文件路径 | 选择下载的LoRA文件 |
| 权重强度 | weight | 数字 | 0.5-1.0 | 控制"化妆"的浓淡程度 | LoRA权重的应用强度 | 轻微效果用0.5,强烈效果用1.0 |
| 融合方式 | merge_method | 选项 | linear | 选择"化妆"的混合方式 | LoRA权重的融合算法 | 一般用linear,特殊需求用其他 |
3.5 时间戳提示词节点
这个节点就像是"视频剧本编辑器",可以让你在视频的不同时间点使用不同的描述,创造出情节变化的效果。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 时间戳文本 | timestamped_text | 文本 | 必填 | 按时间顺序写的剧本,就像电影分镜头脚本 | 包含时间戳的提示词文本 | "[0s: 安静的湖面] [5s: 微风吹起涟漪] [10s: 小船出现]" |
| 过渡平滑度 | blend_strength | 数字 | 0.5 | 控制场景切换的平滑程度,就像电影转场效果 | 不同时间段提示词之间的混合强度 | 要求平滑用0.8,要求明显用0.2 |
| 时间解析精度 | time_precision | 数字 | 1.0 | 控制时间解析的精确程度 | 时间戳解析的精确度 | 精确控制用1.0,模糊控制用0.5 |
3.6 分辨率控制节点
这个节点就像是"视频尺寸调节器",能够自动找到最适合你输入图片的视频尺寸。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 输入图片 | input_image | 图片 | 必填 | 提供要分析尺寸的图片 | 用于分析最佳分辨率的输入图像 | 连接你的参考图片 |
| 目标宽度 | target_width | 数字 | 1024 | 设置理想的视频宽度,就像选择屏幕大小 | 期望的视频宽度像素 | 高清用1920,标清用1024 |
| 目标高度 | target_height | 数字 | 576 | 设置理想的视频高度 | 期望的视频高度像素 | 宽屏用576,方形用1024 |
| 宽高比保持 | maintain_ratio | 布尔值 | true | 是否保持原图的宽高比例,避免变形 | 是否保持原始图像的宽高比 | 避免变形选true,自由调整选false |
| 自动桶匹配 | auto_bucket | 布尔值 | true | 自动选择最佳的尺寸规格 | 自动选择最优的分辨率桶 | 一般都选true |
4. 使用技巧和建议
新手入门建议:
-
从简单开始:先用单帧推理节点试试把一张简单的图片变成视频,不要一开始就追求复杂效果。
-
提示词要具体:写提示词时要描述具体的动作,比如"女孩慢慢转头微笑"比"女孩很开心"效果更好。
-
合理设置参数:
- 推理步数:新手建议20-30步,够用了
- 引导强度:7.5是个很好的起点
- 视频长度:先试试5-10秒的短视频
-
显存管理:
- 显存不够就选fp16精度
- 可以先用较低的分辨率测试
- 长视频会占用更多显存
进阶技巧:
-
LoRA搭配使用:
- kisekaeichi LoRA适合动漫风格
- chibi LoRA适合Q版可爱风格
- 可以尝试不同LoRA的组合效果
-
时间戳提示词玩法:
- 用于创造故事情节的变化
- 可以模拟镜头的推拉摇移
- 适合制作有剧情的短视频
-
F1取样器优化:
- 追求高质量时使用F1取样器
- 可以和普通取样器对比效果
- 时间一致性参数很重要
5. 常见问题解答
Q1:为什么我的视频质量很差?
A1: 可能的原因和解决方案:
- 推理步数太少 → 增加到30-50步
- 引导强度太低 → 调整到7.5-10
- 输入图片质量不高 → 使用更清晰的图片
- 提示词不够具体 → 添加更多细节描述
Q2:显存不够怎么办?
A2: 节省显存的方法:
- 使用fp16精度而不是bf16
- 减少视频长度
- 降低分辨率
- 关闭一些不必要的节点
Q3:生成的视频和输入图片差别很大?
A3: 可能的解决方案:
- 增加引导强度到10-15
- 使用更详细的提示词描述图片内容
- 检查LoRA权重是否过高
- 尝试不同的种子值
Q4:视频动作不连贯怎么办?
A4: 改善连贯性的方法:
- 使用F1取样器
- 调高时间一致性参数
- 增加推理步数
- 使用更合适的帧率设置
Q5:kisekaeichi模式什么时候用?
A5: 适用场景:
- 使用专门的kisekaeichi LoRA时
- 需要特定的动漫风格效果时
- 按照特定的工作流程要求时
- 一般情况下可以保持关闭
6. 工作流程示例
基础图片转视频流程:
-
图片输入 → 模型加载器 → 单帧推理节点 → 视频输出
-
高质量流程:
图片输入 → 分辨率控制 → 模型加载器 → F1取样器 → 视频输出 -
风格化流程:
图片输入 → 模型加载器 → LoRA应用 → 单帧推理 → 视频输出 -
复杂剧情流程:
图片输入 → 时间戳提示词 → F1取样器 → 后处理 → 视频输出
参数调优建议:
- 追求质量:F1取样器 + bf16精度 + 50步推理
- 追求速度:普通取样器 + fp16精度 + 20步推理
- 节省显存:低分辨率 + fp16精度 + 短视频
- 风格化:LoRA权重0.8-1.0 + 相应的提示词
总结
ComfyUI-FramePackWrapper_PlusOne是一个功能强大的图片转视频插件,特别适合想要从静态图片创造动态内容的用户。它的单帧推理技术让你只需一张图片就能生成精彩的视频,而丰富的参数设置让你可以精确控制生成效果。
记住,任何工具都需要练习才能熟练使用,建议你从简单的效果开始尝试,逐步掌握各个参数的作用,最终创造出属于你自己的精彩视频作品!