ComfyUI 魔法书 Logo
🏠 首页
👥 加群
😎 大帅比
❤️‍🔥 Monster 社区
登录 →
ComfyUI 魔法书 Logo
🏠 首页 👥 加群 😎 大帅比 ❤️‍🔥 Monster 社区
登录
  1. 首页
  2. 🧩 插件工坊 (Plugin Workshop)
  3. ComfyUI动物描述插件Doubutsu-Describer使用教程

ComfyUI动物描述插件Doubutsu-Describer使用教程

0
  • 🧩 插件工坊 (Plugin Workshop)
  • 发布于 2025-07-03
  • 35 次阅读
编程界的小学生
编程界的小学生
# ComfyUI-Doubutsu-Describer 插件完全教程 ## 1. 插件简介 **插件原地址:** https://github.com/EnragedAntelope/ComfyUI-Doubutsu-Describer 这个插件就像给你的ComfyUI装了一个智能的"看图说话"小助手。它使用了一个叫做Doubutsu的小型智能模型,能够像人一样观看你的图片,然后用文字描述出图片里的内容。 **能给我们带来什么效果?** - 自动描述图片内容,就像有个朋友在旁边告诉你"这张图片里有什么" - 可以根据你的问题来回答图片相关的内容,比如问"这个人穿什么颜色的衣服?" - 帮助你快速了解大量图片的内容,不用一张张自己看 - 为图片生成标签和描述,方便后续的图片管理 ## 2. 如何安装 ### 方法一:直接克隆(推荐) 1. 打开你的ComfyUI安装文件夹 2. 找到 `custom_nodes` 文件夹 3. 在这个文件夹里右键打开命令行窗口 4. 输入以下命令: ```bash git clone https://github.com/EnragedAntelope/comfyui-doubutsu-describer.git ``` ### 方法二:手动下载 1. 访问 https://github.com/EnragedAntelope/ComfyUI-Doubutsu-Describer 2. 点击绿色的"Code"按钮,选择"Download ZIP" 3. 解压到你的 `ComfyUI/custom_nodes/` 文件夹里 ### 安装依赖库 在插件文件夹里找到 `requirements.txt` 文件,然后在命令行里输入: ```bash pip install -r requirements.txt ``` ### 下载模型文件 1. 在插件文件夹里创建一个叫 `models` 的新文件夹 2. 下载两个模型文件: - 主模型:`qresearch/doubutsu-2b-pt-756` - 辅助模型:`qresearch/doubutsu-2b-lora-756-docci` 你可以使用以下命令自动下载: ```bash huggingface-cli download qresearch/doubutsu-2b-pt-756 --local-dir models/qresearch/doubutsu-2b-pt-756 huggingface-cli download qresearch/doubutsu-2b-lora-756-docci --local-dir models/qresearch/doubutsu-2b-lora-756-docci ``` 最后重启ComfyUI就可以使用了。 ## 3. 节点详细解析 ### 3.1 Doubutsu Image Describer 节点是干嘛的? 这个节点就像一个智能的"看图说话"机器人。你把图片丢给它,它就会仔细观察图片,然后用文字告诉你图片里有什么内容。你还可以向它提问,比如"这张图片里的人在做什么?"它会根据你的问题来回答。 ### 3.2 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | image | image | 图片输入 | 任意图片 | 这是你要让机器人看的图片,就像给朋友看照片一样 | 图像数据输入接口,接收PIL图像或张量格式 | 连接一个Load Image节点,把你想描述的图片传进来 | | question | question | 文字输入 | "Describe the image" | 你想问机器人关于图片的问题,就像问朋友"这张图片里有什么?" | 文本提示输入,用于指导模型生成特定类型的描述 | 可以问"这个人穿什么颜色的衣服?"或"图片里有几个人?" | | max_new_tokens | max_new_tokens | 数字 | 128 | 控制机器人回答的长度,数字越大回答越详细,就像限制朋友说话的字数 | 控制模型生成文本的最大令牌数量 | 如果想要简短回答用64,想要详细描述用256 | | temperature | temperature | 小数 | 0.1 | 控制机器人回答的创意程度,数字越小回答越严谨,越大越有创意 | 控制生成文本的随机性和创造性程度 | 0.1比较保守准确,0.7比较有创意但可能不准确 | | precision | precision | 选择项 | bfloat16 | 选择机器人思考的精确度,就像选择计算器的精度模式 | 选择模型推理时使用的数值精度格式 | 如果显卡支持bfloat16就选它,速度更快 | ## 4. 使用技巧和建议 ### 基础使用技巧 1. **问题要具体**:不要只问"描述图片",可以问"这张图片里的人在做什么?"这样更有针对性 2. **调整回答长度**:如果只想要简单回答,把max_new_tokens设成64;如果想要详细描述,设成256或更高 3. **控制创意程度**:如果需要准确的描述,把temperature设成0.1;如果想要有趣的描述,可以设成0.5 ### 进阶使用技巧 1. **批量处理**:可以配合循环节点处理多张图片 2. **结合其他节点**:把描述结果传给文本处理节点,做进一步的分析 3. **保存结果**:连接文本保存节点,把描述结果保存到文件 ### 性能优化建议 1. **选择合适的精度**:如果你的显卡支持bfloat16,优先选择它 2. **合理设置token数**:不要设置过大的max_new_tokens,会消耗更多显存 3. **温度参数**:对于大多数用途,0.1-0.3之间的temperature效果最好 ## 5. 常见问题解答 ### Q: 安装后找不到节点怎么办? A: 确保你已经重启了ComfyUI,节点会出现在"image/text"分类下。如果还是找不到,检查插件是否正确安装在custom_nodes文件夹里。 ### Q: 提示"PEFT is not installed"错误怎么解决? A: 这表示缺少PEFT依赖库,在命令行里输入:`pip install peft` ### Q: 模型下载失败怎么办? A: 可能是网络问题,可以尝试科学上网或者手动从Hugging Face网站下载模型文件。 ### Q: 描述结果不够准确怎么办? A: 尝试调整question参数,提出更具体的问题,或者降低temperature参数让回答更保守。 ### Q: 运行时显存不够怎么办? A: 降低max_new_tokens数值,或者选择float16精度模式。 ### Q: 支持中文提问吗? A: 模型主要训练于英文数据,建议使用英文提问以获得更好的效果。 ## 6. 工作流程示例 ### 基础工作流程 1. Load Image(加载图片)→ Doubutsu Image Describer(图片描述)→ Display Text(显示文本) 2. 在question栏输入"Describe the image in detail" 3. 运行工作流程,获得详细的图片描述 ### 进阶工作流程 1. 批量图片处理:Load Image Batch → Doubutsu Image Describer → Save Text 2. 问答式描述:Load Image → Doubutsu Image Describer(question: "What is the person wearing?")→ Display Text 3. 多角度分析:一张图片连接多个Doubutsu节点,每个节点问不同的问题 ## 7. 性能和兼容性 ### 系统要求 - 需要支持CUDA的NVIDIA显卡 - 至少4GB显存(推荐8GB以上) - Python 3.8或更高版本 ### 兼容性说明 - 支持主流的ComfyUI版本 - 与其他图像处理节点兼容良好 - 可以与文本处理插件配合使用 这个插件为ComfyUI增加了强大的图像理解能力,无论你是想要自动给图片添加描述,还是想要分析图片内容,都能很好地满足需求。记住,熟练使用需要一些练习,多试试不同的问题和参数设置,你会发现更多有趣的用法!
标签: #插件 2338
相关文章

ComfyUI错误修复插件详解:轻松解决常见问题 2025-07-10 18:25

ComfyUI-CustomMenu插件使用教程:高效自定义工作流指南 2025-07-10 17:50

ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44

ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com

ComfyUI WAN 2.2视频插件教程:万相AI提示词全攻略 2025-07-31 11:47

ComfyUI WAN 2.2视频插件教程:万相AI提示词实战指南 2025-07-29 20:10

ComfyUI HeyGem数字人插件教程:零基础快速精通指南 2025-07-22 14:10

目录

从节点基础到高阶工作流,我们为你绘制最清晰的 ComfyUI 学习路径。告别困惑,让每一次连接都充满创造的魔力,轻松驾驭 AI 艺术的无限可能。

  • 微信
  • B站
  • GitHub
Copyright © 2025 AIX All Rights Reserved. Powered by AIX.
隐私政策
津ICP备2024019312号