ComfyUI 魔法书 Logo
🏠 首页
👥 加群
🔥 报错不求人
😎 大帅比
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 🔥 报错不求人 😎 大帅比
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI-Florence2插件保姆级安装使用教程

ComfyUI-Florence2插件保姆级安装使用教程

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-06-27
  • 74 次阅读
编程界的小学生
编程界的小学生

【版权严正声明】

本文系作者 [编程界的小学生] 原创,并拥有完整、独立的著作权。

未经本人 书面授权 ,任何单位、平台或个人, 严禁 以任何形式(包括但不限于转载、复制、摘编、修改、链接、转贴、建立镜像等)使用本文的全部或部分内容。

任何无视本声明的侵权行为,本人将依据《中华人民共和国著作权法》等相关法律法规,采取一切必要的法律手段,追究其侵权责任,要求其 立即停止侵权、赔礼道歉、消除影响,并赔偿因此造成的一切经济损失及维权成本(包括但不限于律师费、诉讼费、公证费等)。

侵权必究,切勿以身试法!

1. 插件简介

插件地址: https://github.com/kijai/ComfyUI-Florence2

Florence2 是一个超级厉害的"看图说话"插件!就像给你的 ComfyUI 装了一双"智能眼睛",它能:

  • 看图写字:就像小朋友看图写作文,能描述图片里有什么

  • 找东西:就像玩"找不同"游戏,能在图片里找到指定的物体

  • 读文字:就像扫描仪,能识别图片里的文字内容

  • 回答问题:就像智能助手,你问它图片相关问题,它能回答

  • 画框框:就像用荧光笔标记重点,能在找到的东西周围画框

这个插件特别适合需要"理解图片内容"的场景,比如自动写图片说明、提取图片中的文字、或者让AI帮你分析图片内容。

2. 如何安装

方法一:手动安装

  1. 打开命令行工具(Windows 用 CMD,Mac 用终端)

  2. 进入你的 ComfyUI 根目录

  3. 输入命令:

    cd custom_nodes && git clone https://github.com/kijai/ComfyUI-Florence2.git
  4. 安装依赖包:

    pip install -r ComfyUI-Florence2/requirements.txt
  5. 重启 ComfyUI

方法二:便携版安装

如果你用的是便携版 ComfyUI:

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-Florence2\requirements.txt

3. 节点详细解析

经过源码分析,这个插件包含 4个节点,我将逐一详细解释:

3.1 DownloadAndLoadFlorence2Model 节点

这个节点是干嘛的? 就像一个"模型下载器"和"模型加载器"的组合体。它能自动从网上下载各种 Florence2 模型,然后把模型加载到内存里准备使用。就像你要用某个软件前,先要下载安装一样。

参数详解:

参数名 (UI显示)

参数名 (代码里)

参数值

建议值

通俗解释 (能干嘛的)

专业解释

怎么用/举个例子

model

model

多个选项列表

microsoft/Florence-2-base

选择要下载的模型版本,就像选择要下载哪个版本的软件

指定要使用的预训练模型,不同模型有不同的能力和大小

新手建议用 base 版本,速度快;要效果好用 large 版本

precision

precision

fp16/bf16/fp32

fp16

控制模型运算精度,就像调节画质清晰度

设置模型权重的数据类型,影响显存占用和运算速度

fp16 省显存速度快,fp32 精度高但占用大

attention

attention

flash_attention_2/sdpa/eager

sdpa

选择注意力计算方式,就像选择不同的思考方法

指定注意力机制的实现方式,影响性能和兼容性

sdpa 是默认选择,兼容性好;flash_attention_2 更快但需要特殊硬件

lora

lora

PEFTLORA类型

无

可选的模型增强包,就像给软件装插件

低秩适应器,用于微调模型特定能力

一般情况下不需要,除非有特殊需求

convert_to_safetensors

convert_to_safetensors

True/False

False

是否转换模型格式,就像把文件转换成更安全的格式

将旧格式的模型权重转换为更安全的safetensors格式

如果模型加载很慢可以开启,会自动优化

3.2 DownloadAndLoadFlorence2Lora 节点

这个节点是干嘛的? 专门用来下载和加载 LoRA 模型的节点。LoRA 就像是给原始模型装的"专业技能包",比如专门用来生成更好的图片描述的技能包。

参数详解:

参数名 (UI显示)

参数名 (代码里)

参数值

建议值

通俗解释 (能干嘛的)

专业解释

怎么用/举个例子

model

model

NikshepShetty/Florence-2-pixelprose

NikshepShetty/Florence-2-pixelprose

选择要下载的LoRA技能包,目前只有一个选项

指定要下载的LoRA适配器模型

这个LoRA专门用来生成更有诗意的图片描述

3.3 Florence2ModelLoader 节点

这个节点是干嘛的? 这是一个"本地模型加载器",用来加载你已经下载到本地的 Florence2 模型。就像打开你电脑里已经安装好的软件一样。

参数详解:

参数名 (UI显示)

参数名 (代码里)

参数值

建议值

通俗解释 (能干嘛的)

专业解释

怎么用/举个例子

model

model

本地模型列表

根据你下载的模型

从本地已下载的模型中选择一个,就像从已安装软件中选择要打开的

选择ComfyUI/models/LLM文件夹中的模型

先用DownloadAndLoadFlorence2Model下载,再用这个加载

precision

precision

fp16/bf16/fp32

fp16

控制模型运算精度,就像调节画质清晰度

设置模型权重的数据类型,影响显存占用和运算速度

fp16 省显存速度快,fp32 精度高但占用大

attention

attention

flash_attention_2/sdpa/eager

sdpa

选择注意力计算方式,就像选择不同的思考方法

指定注意力机制的实现方式,影响性能和兼容性

sdpa 是默认选择,兼容性好

lora

lora

PEFTLORA类型

无

可选的模型增强包,就像给软件装插件

低秩适应器,用于微调模型特定能力

可以连接DownloadAndLoadFlorence2Lora的输出

convert_to_safetensors

convert_to_safetensors

True/False

False

是否转换模型格式,就像把文件转换成更安全的格式

将旧格式的模型权重转换为更安全的safetensors格式

如果模型加载很慢可以开启

3.4 Florence2Run 节点

这个节点是干嘛的? 这是整个插件的"大脑",负责实际执行各种图片分析任务。就像一个多功能的图片分析师,能看图说话、找东西、读文字、回答问题等等。

参数详解:

参数名 (UI显示)

参数名 (代码里)

参数值

建议值

通俗解释 (能干嘛的)

专业解释

怎么用/举个例子

image

image

IMAGE类型

必需

要分析的图片,就像给医生看的X光片

输入的图像数据

连接LoadImage或其他图片节点

florence2_model

florence2_model

FL2MODEL类型

必需

加载好的Florence2模型,就像准备好的分析工具

已加载的Florence2模型实例

连接上面任一模型加载节点的输出

text_input

text_input

字符串

空字符串

输入的文字提示或问题,就像给助手的指令

文本提示,用于某些需要文本输入的任务

比如问"这张图片里有什么动物?"

task

task

15种任务选项

caption

选择要执行的任务类型,就像选择不同的分析模式

指定要执行的视觉任务类型

caption=简单描述,detailed_caption=详细描述

fill_mask

fill_mask

True/False

True

是否填充找到的区域,就像用荧光笔涂色标记

是否在检测到的区域生成填充遮罩

True会高亮显示找到的区域

keep_model_loaded

keep_model_loaded

True/False

False

是否保持模型在内存中,就像软件是否常驻后台

任务完成后是否保持模型加载状态

True可以加快后续处理,但占用显存

max_new_tokens

max_new_tokens

1-4096

1024

最多生成多少个词,就像限制作文字数

生成文本的最大长度限制

描述任务可以设大一点,简单任务设小一点

num_beams

num_beams

1-64

3

搜索路径数量,就像同时考虑几种可能的答案

束搜索的束宽,影响生成质量和速度

数值越大质量越好但速度越慢

do_sample

do_sample

True/False

True

是否随机采样,就像是否允许一些创意发挥

是否使用随机采样生成文本

True会有更多变化,False更稳定

output_mask_select

output_mask_select

字符串

空字符串

选择输出哪些区域的遮罩,就像选择要标记哪些部分

指定要输出遮罩的区域索引或标签

比如"0,1,2"表示只要前三个检测到的区域

seed

seed

1-很大的数

1

随机种子,就像掷骰子的起始状态

控制随机性的种子值

相同种子会产生相同结果,便于复现

任务类型详解:

任务名称

通俗解释

适用场景

是否需要文字输入

caption

简单描述图片内容,一句话概括

给图片写标题

否

detailed_caption

详细描述图片内容,比较全面

写详细的图片说明

否

more_detailed_caption

超详细描述,非常全面

需要非常详细的图片分析

否

region_caption

给图片中的不同区域分别写说明

分析图片的各个部分

否

dense_region_caption

密集区域描述,更细致的区域分析

需要精细分析每个区域

否

region_proposal

提出图片中可能的感兴趣区域

找出图片中的重要区域

否

caption_to_phrase_grounding

根据描述找到对应的图片区域

验证描述是否准确

是

referring_expression_segmentation

根据描述分割出指定区域

精确提取特定物体

是

ocr

识别图片中的文字

提取图片中的文本内容

否

ocr_with_region

识别文字并标出位置

需要知道文字在哪里

否

docvqa

回答关于文档图片的问题

分析文档、表格、票据等

是

prompt_gen_tags

生成图片标签

为图片打标签

否

prompt_gen_mixed_caption

生成混合风格的描述

创作风格的图片描述

否

prompt_gen_analyze

分析图片内容

深度分析图片

否

prompt_gen_mixed_caption_plus

增强版混合描述

更高质量的创作描述

否

4. 使用技巧和建议

4.1 模型选择建议

  • 新手用户:选择 microsoft/Florence-2-base,速度快,效果够用

  • 追求效果:选择 microsoft/Florence-2-large,效果更好但速度慢

  • 特殊用途:

    • 文档分析用 HuggingFaceM4/Florence-2-DocVQA

    • 创意描述用带 LoRA 的版本

4.2 任务选择技巧

  • 简单描述:用 caption

  • 详细分析:用 detailed_caption 或 more_detailed_caption

  • 找特定东西:用 referring_expression_segmentation

  • 读文字:用 ocr 或 ocr_with_region

  • 问答:用 docvqa

4.3 性能优化建议

  • 显存不够用 fp16 精度

  • 需要速度开启 keep_model_loaded

  • 批量处理时适当调整 max_new_tokens

4.4 常用工作流组合

  1. 图片描述流程:LoadImage → Florence2Run(caption)

  2. 物体检测流程:LoadImage → Florence2Run(region_caption)

  3. 文字识别流程:LoadImage → Florence2Run(ocr)

  4. 问答流程:LoadImage → Florence2Run(docvqa) + 文字输入

5. 常见问题解答

Q1: 模型下载失败怎么办?

A: 检查网络连接,确保能访问 Hugging Face。如果网络不好,可以手动下载模型到 ComfyUI/models/LLM 文件夹。

Q2: 显存不够用怎么办?

A:

  • 选择 fp16 精度

  • 使用 base 版本而不是 large 版本

  • 设置 keep_model_loaded=False

Q3: 生成的描述不准确怎么办?

A:

  • 尝试不同的任务类型

  • 调整 num_beams 参数

  • 使用更大的模型版本

Q4: 某些任务需要文字输入但不知道怎么写?

A:

  • caption_to_phrase_grounding: 输入你想找的物体名称

  • referring_expression_segmentation: 描述你想分割的区域

  • docvqa: 直接问问题,比如"这个表格的总金额是多少?"

Q5: 处理速度太慢怎么办?

A:

  • 使用 flash_attention_2(如果硬件支持)

  • 减少 max_new_tokens

  • 设置 keep_model_loaded=True

6. 实际应用场景

6.1 内容创作

  • 自动为图片生成标题和描述

  • 批量处理图片库,生成标签

  • 创作风格的图片说明文案

6.2 文档处理

  • 扫描文档的文字识别

  • 表格数据提取

  • 票据信息自动识别

6.3 图片分析

  • 产品图片的自动分类

  • 场景内容分析

  • 物体检测和定位

6.4 教育应用

  • 图片内容解释

  • 视觉问答系统

  • 学习材料的自动标注

7. 总结

ComfyUI-Florence2 是一个功能强大的视觉理解插件,它就像给你的 ComfyUI 装了一双"智能眼睛"。通过4个核心节点的组合使用,你可以实现:

  • 看图说话:自动生成图片描述

  • 智能问答:回答关于图片的问题

  • 文字识别:提取图片中的文本

  • 物体检测:找到并标记图片中的物体

  • 区域分析:分析图片的不同部分

无论你是内容创作者、文档处理工作者,还是需要图片分析的开发者,这个插件都能大大提升你的工作效率。记住从简单的任务开始,逐步探索更复杂的功能!

标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号