ComfyUI-IF_DatasetMkr 插件完整教程
1. 插件简介
插件原地址: https://github.com/if-ai/ComfyUI-IF_DatasetMkr
这个插件就像一个智能的视频"拆解工厂",能够把YouTube上的视频或者你电脑里的视频文件,自动变成用来训练AI画图模型的数据集。
想象一下,你有一段很棒的视频,里面有很多漂亮的画面,但是你想要教会AI画出类似的图片。以前你需要手动截图、手动写描述文字,非常麻烦。现在有了这个插件,就像有了一个勤劳的小助手:
- 自动下载视频:就像网络下载工具一样,输入YouTube链接就能下载
- 智能切片:像切蛋糕一样,把长视频切成一帧帧的图片
- 自动写描述:就像有个很会写作文的同学,看着每张图片自动写出描述文字
- 整理打包:最后把所有图片和文字整理得井井有条,直接可以用来训练模型
这个插件特别适合想要训练自己的AI绘画模型的朋友,比如制作LoRA模型、训练特定风格的AI等。
2. 如何安装
方法一:使用ComfyUI管理器(推荐)
- 打开ComfyUI管理器
- 搜索"IF_DatasetMkr"
- 点击安装
- 重启ComfyUI
方法二:手动安装
- 打开你的ComfyUI文件夹
- 进入
custom_nodes文件夹 - 在这里打开命令行,输入:
git clone https://github.com/if-ai/ComfyUI-IF_DatasetMkr.git
- 进入插件文件夹:
cd ComfyUI-IF_DatasetMkr
- 安装依赖:
pip install -r requirements.txt
- 重启ComfyUI
重要提醒: 这个插件需要FFmpeg软件来处理视频,就像需要解压软件才能解压文件一样。请确保你的电脑上已经安装了FFmpeg。
3. 节点详解
3.1 IF_VideoDatasetMaker 节点
这是这个插件的核心节点,就像一个全能的视频处理工厂。它能接收视频输入,然后输出整理好的训练数据集。
3.2 参数详解
| 参数名 (界面显示) | 参数名 (代码里) | 参数值类型 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| 视频网址 | video_url | 文本输入 | 空白或YouTube链接 | 就像在浏览器地址栏里输入网址一样,告诉插件要处理哪个YouTube视频 | 指定要处理的YouTube视频URL地址 | 复制YouTube视频链接,比如:https://www.youtube.com/watch?v=xxxxx |
| 视频文件 | video_file | 文件路径 | 空白或本地路径 | 就像"选择文件"一样,指定你电脑里的视频文件位置 | 指定本地视频文件的完整路径 | 输入:C:\Videos\my_video.mp4 |
| 触发词 | trigger_word | 文本输入 | 空白或自定义词 | 就像给你的数据集起个"昵称",训练完模型后用这个词来召唤特定效果 | 用于训练模型的触发关键词,会添加到每个标题中 | 比如输入"anime_style",训练后画图时用这个词就能出现对应风格 |
| 自动描述 | autocaption | 开关选择 | True (开启) | 就像自动写作文功能,让AI看图片后自动写描述 | 是否启用AI自动生成图片描述功能 | 开启后每张图片都会有AI写的描述文字 |
| 自定义描述 | custom_caption | 文本输入 | 空白 | 就像统一的标签,给所有图片都贴上同样的描述 | 为所有提取的帧设置统一的描述文本 | 比如输入"beautiful landscape",所有图片描述都会是这个 |
| 描述前缀 | autocaption_prefix | 文本输入 | 空白 | 就像句子开头的固定词语,AI写的每个描述前面都会加上这个 | 在AI生成的描述前统一添加的文本前缀 | 输入"a photo of ",每个描述都会以这个开头 |
| 描述后缀 | autocaption_suffix | 文本输入 | 空白 | 就像句子结尾的固定词语,AI写的每个描述后面都会加上这个 | 在AI生成的描述后统一添加的文本后缀 | 输入", high quality",每个描述都会以这个结尾 |
| 输出文件夹 | output_dir | 文件夹路径 | 默认ComfyUI输出文件夹 | 就像选择"保存到哪里",指定处理好的文件存放位置 | 指定数据集输出的目录路径 | 输入:C:\MyDatasets\ |
| 模型版本 | model_variant | 下拉选择 | Qwen2-VL-7B-Instruct | 就像选择"翻译官"的水平,不同的AI模型写描述的能力不同 | 用于生成图片描述的Qwen视觉语言模型版本 | 显存大选大模型,显存小选小模型 |
| 模型减负 | model_offload | 开关选择 | True (开启) | 就像"省电模式",让模型不占用太多显存,处理慢一些但不会爆显存 | 是否将模型部分计算转移到CPU以节省显存 | 显存不够时开启,有足够显存时关闭 |
| HF令牌 | hf_token | 文本输入 | 空白 | 就像会员卡密码,有些AI模型需要这个"通行证"才能下载使用 | Hugging Face平台的访问令牌,用于下载受限模型 | 从Hugging Face网站获取后粘贴进来 |
| 描述风格 | profile | 下拉选择 | 默认 | 就像选择"写作风格",决定AI用什么语调和重点来描述图片 | 预设的描述生成配置文件,控制描述的风格和内容 | 选择适合你训练目标的描述风格 |
| 图片尺寸 | image_size | 数值输入 | 512 | 就像选择"照片大小",决定处理后的图片是多大的 | 处理输出的图片分辨率大小 | 一般512或1024,太大会占用更多存储空间 |
| 调试模式 | debug_mode | 开关选择 | False (关闭) | 就像"详细记录模式",开启后会显示处理过程的详细信息,帮助发现问题 | 启用详细的调试信息输出 | 遇到问题时开启,正常使用时关闭 |
4. 使用技巧和建议
4.1 选择合适的视频
- 长度建议:选择3-10分钟的视频最合适,太短内容不够丰富,太长处理时间会很久
- 画质要求:选择高清视频,模糊的视频训练出来的模型效果也不好
- 内容一致性:选择风格统一的视频,比如都是动漫风格或都是真人照片
4.2 参数设置建议
- 新手推荐设置:
- 自动描述:开启
- 模型版本:选择较小的模型(如果显存不够)
- 模型减负:开启
-
图片尺寸:512(节省空间和处理时间)
-
高级用户设置:
- 自定义触发词:根据你的训练目标设置
- 描述前缀/后缀:统一描述格式
- 输出文件夹:指定专门的存储位置
4.3 显存优化
- 显存不够时,开启"模型减负"
- 选择较小的模型版本
- 降低图片尺寸
- 一次处理较短的视频
5. 常见问题解答
Q1:处理视频时提示"FFmpeg未找到"
A1: 这就像缺少了"视频处理工具",需要安装FFmpeg软件。去FFmpeg官网下载安装,或者使用包管理器安装。
Q2:下载YouTube视频失败
A2: 可能是网络问题或视频有访问限制。可以尝试: - 检查网络连接 - 确认视频是公开的 - 使用较短的视频链接
Q3:生成的描述都是英文,能改成中文吗?
A3: 目前这个插件主要支持英文描述。如果需要中文,可以在描述前缀中添加中文提示,或者后期使用翻译工具处理。
Q4:处理后的文件在哪里?
A4: 默认保存在ComfyUI的输出文件夹中,会生成一个以时间命名的文件夹,里面包含:
- videos文件夹:存放切片后的图片
- captions文件夹:存放对应的描述文件
- 一个打包好的ZIP文件
Q5:显存不够怎么办?
A5: 可以尝试: - 开启"模型减负"选项 - 选择更小的模型版本 - 降低图片尺寸 - 关闭其他占用显存的程序
6. 输出文件结构说明
插件处理完成后,会在输出文件夹中生成以下结构:
dataset_YYYYMMDD_HHMMSS/
├── videos/ # 存放所有切片图片
│ ├── frame_001.jpg
│ ├── frame_002.jpg
│ └── ...
├── captions/ # 存放对应的描述文件
│ ├── frame_001.txt
│ ├── frame_002.txt
│ └── ...
└── dataset.zip # 打包好的完整数据集
每个描述文件里的内容格式:
[触发词] [描述前缀] [AI生成的描述] [描述后缀]
7. 训练模型使用建议
生成的数据集可以直接用于: - LoRA训练:使用如Kohya_ss等训练工具 - Dreambooth训练:Google Colab或本地训练 - HyperNetwork训练:传统的网络训练方法 - 其他微调方法:各种Stable Diffusion模型训练
训练建议: - 数据集质量比数量更重要 - 描述文字要准确反映图片内容 - 触发词要容易记忆且不与常用词冲突 - 定期备份训练好的模型
这个插件就像一个贴心的数据集制作助手,让原本复杂的数据准备工作变得简单轻松。无论是AI绘画爱好者还是专业的模型训练师,都能从中受益。记住,好的数据集是训练出优秀AI模型的基础!