# ComfyUI自动图片标注插件(ComfyUI Auto Caption)教程 ## 1. 插件简介 这是一个能帮你自动识别图片内容并生成文字描述的小帮手。就像有一个会看图说话的助手,它能把图片里看到的内容用文字说出来。 GitHub地址:https://github.com/Cyber-BlackCat/ComfyUI_Auto_Caption ## 2. 安装方法 就像安装手机APP一样简单,有三种方法: 1. 直接下载法: - 打开ComfyUI的custom_nodes文件夹这个插件下载进去 - 重启ComfyUI就能用啦 2. 复制粘贴法: ```bash git clone https://github.com/Cyber-BlackCat/ComfyUI_Auto_Caption ``` 3. 一键安装法: - 在ComfyUI管理器里搜索"Auto Caption" - 点击安装即可 ## 3. 节点详解 ### 3.1 Auto Caption节点 这个节点就像一个会说话的眼睛,能看懂图片里有什么,然后用文字告诉你。 #### 参数详解: | 参数名(显示) | 参数名(代码) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用示例 | |------------|------------|--------|--------|----------|----------|----------| | 模型选择 | model_name | "Salesforce/blip-image-captioning-base" 或 "Salesforce/blip-image-captioning-large" | base版本 | 就像选择翻译官,有普通版和专业版 | BLIP模型的不同版本 | 普通用base就够了,想要更准确可以用large | | 最少字数 | min_length | 数字 | 5 | 生成描述的最短长度 | 输出文本的最小token数 | 想要更详细的描述就调大点 | | 最多字数 | max_length | 数字 | 75 | 生成描述的最长长度 | 输出文本的最大token数 | 通常75个字左右就够了 | | 描述数量 | num_beams | 数字 | 1 | 生成几种不同的描述 | beam search的数量 | 想要多种描述就调大,但会变慢 | ### 3.2 Load BLIP Model节点 这是一个准备工作的节点,就像在使用相机前要先把相机打开一样。 #### 参数详解: | 参数名(显示) | 参数名(代码) | 参数值 | 建议值 | 通俗解释 | 专业解释 | 使用示例 | |------------|------------|--------|--------|----------|----------|----------| | 模型选择 | model_name | 同上 | base版本 | 选择识图助手的类型 | BLIP模型版本选择 | 一般选base就好 | ## 4. 使用技巧和建议 - 第一次使用时会下载模型,需要等一会儿 - 普通图片用base版本就够了,复杂图片才需要large版本 - 如果描述不够准确,可以适当增加最少字数 - 想要多个不同的描述,可以把描述数量调到2-3个 ## 5. 常见问题解答 Q:为什么第一次用特别慢? A:因为要下载模型,就像第一次装游戏要下载游戏包一样,之后就快了。 Q:为什么有时候描述不够准确? A:就像人看图一样,有时候也会看错或描述不够精确,可以试试调整参数或换用large版本。 Q:可以用来描述中文图片吗? A:这个插件主要输出英文描述,如果需要中文,可以配合翻译工具使用。 ## 6. 补充说明 - 这个插件特别适合给图片加标签、做图片分类整理 - 对于艺术创作和图片管理特别有帮助 - 建议保存一些常用的工作流程,方便重复使用 记住,这就是个帮你看图说话的小助手,用起来其实特别简单!如果遇到问题,随时可以来问我们。
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com