ComfyUI-PyramidFlowWrapper 插件保姆级教程
1. 插件简介
插件地址: https://github.com/kijai/ComfyUI-PyramidFlowWrapper
这个插件是什么呢?简单来说,它就像是给ComfyUI装了一个超级厉害的视频生成器!它基于Pyramid-Flow技术,可以让你:
- 文字生成视频:就像写作文一样,你写一段描述,它就能给你生成对应的视频
- 图片生成视频:给它一张图片,它能让图片"动起来",变成一段视频
- 高质量输出:生成的视频质量很高,支持不同分辨率
- 灵活控制:可以控制视频长度、质量、风格等各种参数
想象一下,这就像有了一个会画动画的小助手,你告诉它你想要什么样的动画,它就能帮你画出来!
2. 如何安装
方法一:通过ComfyUI管理器安装(推荐)
- 打开ComfyUI
- 点击"Manager"按钮
- 搜索"PyramidFlow"
- 点击安装
方法二:手动安装
- 打开ComfyUI的安装目录
- 进入
custom_nodes文件夹 - 在这里打开命令行/终端
- 输入命令:
git clone https://github.com/kijai/ComfyUI-PyramidFlowWrapper.git - 重启ComfyUI
下载模型文件
你还需要下载模型文件(就像给软件装"大脑"):
- 访问:https://huggingface.co/Kijai/pyramid-flow-comfy/tree/main
- 下载模型文件到:
ComfyUI/models/diffusion_models文件夹ComfyUI/models/vae文件夹
3. 节点详细解析
3.1 PyramidFlowTorchCompileSettings 节点
这个节点是干嘛的?
这就像是给你的电脑装了一个"加速器",让视频生成跑得更快。就像给汽车换了个更好的发动机一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| backend | backend | inductor, cudagraphs | inductor | 选择加速方式,就像选择用什么引擎 | 选择PyTorch编译后端 | 一般选inductor就行,除非你很懂技术 |
| fullgraph | fullgraph | True/False | False | 是否完整加速,开启后更快但可能不稳定 | 启用完整图模式编译 | 新手建议关闭,避免出错 |
| mode | mode | default, max-autotune等 | default | 加速模式,就像汽车的运动模式 | 编译优化模式 | default最稳定,其他模式更快但风险大 |
| compile_whole_model | compile_whole_model | True/False | False | 是否给整个模型加速 | 编译整个模型而非单独模块 | 开启后会覆盖其他设置 |
| single_blocks | single_blocks | True/False | True | 是否给单层模块加速 | 编译单层transformer块 | 建议开启,能提升速度 |
| double_blocks | double_blocks | True/False | True | 是否给双层模块加速 | 编译双层transformer块 | 建议开启,能提升速度 |
| embedders | embedders | True/False | True | 是否给文字理解部分加速 | 编译嵌入层 | 建议开启,处理文字更快 |
| compile_rest | compile_rest | True/False | True | 是否给其他部分加速 | 编译模型其余部分 | 建议开启,整体更快 |
| dynamo_cache_size_limit | dynamo_cache_size_limit | 0-1024 | 64 | 缓存大小限制,就像内存大小 | 动态编译缓存大小限制 | 显存大可以调高,显存小就调低 |
3.2 PyramidFlowVAELoader 节点
这个节点是干嘛的?
这是专门加载"图像理解器"的节点。就像给软件装上"眼睛",让它能看懂图片和视频。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| vae | vae | 文件列表 | - | 选择图像理解器文件 | 选择VAE模型文件 | 从下拉菜单选择你下载的VAE文件 |
| precision | precision | fp16, bf16, fp32 | bf16 | 计算精度,就像画画的精细程度 | 模型计算精度 | bf16平衡速度和质量,fp32最精确但慢 |
| compile_args | compile_args | 可选连接 | - | 连接加速设置 | 可选的torch编译参数 | 连接上面的加速设置节点 |
3.3 PyramidFlowModelLoader 节点
这个节点是干嘛的?
这是加载主要"大脑"的节点,就像给软件装上核心处理器,让它能真正理解和生成视频。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model | model | 文件列表 | - | 选择主模型文件 | 选择diffusion模型文件 | 从下拉菜单选择你下载的模型文件 |
| precision | precision | fp8_e4m3fn, fp16, bf16, fp32等 | bf16 | 计算精度设置 | 模型计算精度 | bf16最平衡,fp8省显存但质量差 |
| enable_sequential_cpu_offload | enable_sequential_cpu_offload | True/False | False | 是否启用内存节省模式 | 启用CPU卸载节省显存 | 显存不够时开启,但会很慢 |
| compile_args | compile_args | 可选连接 | - | 连接加速设置 | 可选的torch编译参数 | 连接加速设置节点提升速度 |
3.4 PyramidFlowSampler 节点
这个节点是干嘛的?
这是最核心的"生成器"节点,就像一个魔法师,根据你的要求变出视频来。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model | model | 连接模型 | - | 连接主模型 | 连接PyramidFlow模型 | 连接上面的模型加载器 |
| prompt_embeds | prompt_embeds | 连接文字编码 | - | 连接文字理解结果 | 连接文本编码结果 | 连接文字编码节点的输出 |
| width | width | 128-2048 | 640 | 视频宽度,就像屏幕宽度 | 生成视频的宽度像素 | 640适合大多数情况,太大会很慢 |
| height | height | 128-2048 | 384 | 视频高度,就像屏幕高度 | 生成视频的高度像素 | 384是标准高度,保持16:9比例 |
| first_frame_steps | first_frame_steps | 字符串 | "10, 10, 10" | 第一帧生成步数,影响首帧质量 | 三阶段生成的步数设置 | 数字越大质量越好但越慢 |
| video_steps | video_steps | 字符串 | "10, 10, 10" | 视频生成步数,影响整体质量 | 视频帧生成的步数设置 | 数字越大质量越好但越慢 |
| temp | temp | 1以上整数 | 8 | 视频长度,数字越大视频越长 | 时间维度长度 | 8约等于2-3秒,16约等于5秒 |
| guidance_scale | guidance_scale | 0.0-30.0 | 9.0 | 第一帧遵循程度,就像听话程度 | 首帧生成的引导强度 | 太低不听话,太高太死板 |
| video_guidance_scale | video_guidance_scale | 0.0-30.0 | 5.0 | 视频遵循程度 | 视频生成的引导强度 | 比首帧稍低,让动作更自然 |
| seed | seed | 0-很大的数 | 0 | 随机种子,控制随机性 | 随机数生成种子 | 相同种子产生相同结果 |
| keep_model_loaded | keep_model_loaded | True/False | False | 是否保持模型在内存中 | 是否保持模型加载状态 | 连续生成时开启,节省加载时间 |
| input_latent | input_latent | 可选连接 | - | 输入图片(图生视频用) | 可选的输入潜在表示 | 连接图片编码器做图生视频 |
3.5 PyramidFlowTextEncode 节点
这个节点是干嘛的?
这是"文字翻译器",把你写的文字描述翻译成AI能理解的语言。就像给外国人当翻译一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| clip | clip | 连接CLIP | - | 连接文字理解模型 | 连接CLIP文本编码器 | 连接ComfyUI的CLIP加载器 |
| positive_prompt | positive_prompt | 文本 | "hyper quality, Ultra HD, 8K" | 正面描述,告诉AI你想要什么 | 正向提示词 | 写你想要的内容,比如"美丽的花园" |
| negative_prompt | negative_prompt | 文本 | "cartoon style, worst quality..." | 负面描述,告诉AI你不想要什么 | 负向提示词 | 写你不想要的,比如"模糊,低质量" |
| force_offload | force_offload | True/False | True | 是否释放内存 | 强制卸载模型节省显存 | 显存紧张时开启 |
3.6 PyramidFlowVAEEncode 节点
这个节点是干嘛的?
这是"图片压缩器",把普通图片转换成AI能处理的特殊格式。就像把照片扫描成电脑文件一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| vae | vae | 连接VAE | - | 连接图像理解器 | 连接VAE编码器 | 连接VAE加载器的输出 |
| image | image | 连接图片 | - | 输入要处理的图片 | 输入图像数据 | 连接图片加载器或其他图片源 |
| enable_tiling | enable_tiling | True/False | False | 是否分块处理,处理大图用 | 启用分块编码 | 图片很大时开启,避免显存不够 |
| overlap_factor | overlap_factor | 0.0-1.0 | 0.25 | 分块重叠程度 | 分块重叠因子 | 重叠越多接缝越少但越慢 |
3.7 PyramidFlowVAEDecode 节点
这个节点是干嘛的?
这是"图片还原器",把AI处理后的特殊格式转换回普通的图片/视频。就像把电脑文件打印成照片一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| vae | vae | 连接VAE | - | 连接图像理解器 | 连接VAE解码器 | 连接VAE加载器的输出 |
| samples | samples | 连接潜在数据 | - | 连接AI生成的数据 | 连接潜在表示数据 | 连接采样器的输出 |
| tile_sample_min_size | tile_sample_min_size | 64-512 | 256 | 分块最小尺寸 | 分块解码最小尺寸 | 显存小就调小,显存大可以调大 |
| overlap_factor | overlap_factor | 0.0-1.0 | 0.25 | 分块重叠程度 | 分块重叠因子 | 重叠多接缝少,但处理慢 |
| window_size | window_size | 1-4 | 2 | 时间窗口大小 | 时间维度处理窗口 | 数字大处理更平滑但占用更多显存 |
| enable_tiling | enable_tiling | True/False | True | 是否启用分块处理 | 启用分块解码 | 建议开启,避免显存不够 |
3.8 PyramidFlowLatentPreview 节点
这个节点是干嘛的?
这是"预览器",让你在视频完全生成之前就能看到大概的样子。就像看电影预告片一样。
参数详解:
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| samples | samples | 连接潜在数据 | - | 连接要预览的数据 | 连接潜在表示数据 | 连接采样器的输出查看预览 |
4. 使用技巧和建议
4.1 新手入门建议
- 从简单开始:先用默认参数,熟悉后再调整
- 显存管理:显存不够时开启CPU卸载和分块处理
- 质量平衡:步数越多质量越好,但时间也越长
- 提示词技巧:正面提示词要具体,负面提示词要全面
4.2 性能优化技巧
- 使用加速设置:连接TorchCompile节点提升速度
- 合理选择精度:bf16是最佳平衡点
- 批量处理:连续生成时保持模型加载
- 分辨率控制:不要一开始就用最高分辨率
4.3 质量提升技巧
- 提示词优化:使用详细、具体的描述
- 参数调整:适当提高步数和引导强度
- 种子控制:找到好的种子后可以重复使用
- 分阶段生成:先生成低分辨率,再放大
5. 常见问题解答
Q1: 显存不够怎么办?
A:
- 开启
enable_sequential_cpu_offload - 使用fp8精度(虽然质量会下降)
- 降低分辨率
- 开启分块处理
Q2: 生成速度太慢怎么办?
A:
- 使用TorchCompile加速设置
- 降低生成步数
- 使用较低精度(bf16而非fp32)
- 保持模型加载状态
Q3: 生成质量不好怎么办?
A:
- 提高生成步数
- 优化提示词描述
- 调整引导强度
- 使用更高精度
Q4: 提示词怎么写?
A:
- 正面:具体描述想要的内容、风格、质量
- 负面:列出不想要的元素、低质量词汇
- 使用英文效果更好
- 可以参考其他AI绘画的提示词
Q5: 模型文件放在哪里?
A:
- 主模型:
ComfyUI/models/diffusion_models/ - VAE模型:
ComfyUI/models/vae/ - 确保文件名正确,重启ComfyUI
6. 总结
这个插件总共包含8个节点,每个都有自己的作用:
- PyramidFlowTorchCompileSettings - 加速设置器
- PyramidFlowVAELoader - 图像理解器加载器
- PyramidFlowModelLoader - 主模型加载器
- PyramidFlowSampler - 核心生成器
- PyramidFlowTextEncode - 文字翻译器
- PyramidFlowVAEEncode - 图片压缩器
- PyramidFlowVAEDecode - 图片还原器
- PyramidFlowLatentPreview - 预览器
通过合理组合这些节点,你就能创造出令人惊艳的AI视频作品!记住,熟能生巧,多试试不同的参数组合,你会发现更多有趣的效果。
祝你在AI视频创作的路上玩得开心!🎬✨