# ComfyUI-MarkItDown 插件完全新手教程 ## 1. 插件简介 **原地址:** https://github.com/ciga2011/ComfyUI-MarkItDown 这个插件简单来说就是一个"文件翻译器",它能把各种类型的文件(比如PDF、Word文档、Excel表格、PowerPoint演示文稿、图片等)转换成Markdown格式的文本。 想象一下,你有一堆不同格式的文件,就像有一堆不同品牌的电器说明书,这个插件就像一个万能翻译器,能把它们都翻译成统一的、电脑更容易理解的格式。这样你就可以在ComfyUI的工作流程中处理这些文件内容了。 这个插件实际上是微软MarkItDown工具的ComfyUI版本包装,就像给一个好用的工具穿上了ComfyUI的外衣,让它能在ComfyUI里正常工作。 ## 2. 如何安装 有两种安装方法,选择你觉得简单的: **方法一:直接下载** 1. 打开你的ComfyUI文件夹 2. 找到 `custom_nodes` 文件夹 3. 在 `custom_nodes` 里新建一个文件夹,名字叫 `ComfyUI-MarkItDown` 4. 去GitHub页面下载所有文件,放到这个新文件夹里 5. 重启ComfyUI **方法二:使用管理器** 1. 如果你装了ComfyUI Manager,直接在管理器里搜索 `MarkItDown` 2. 点击安装,等待完成 3. 重启ComfyUI ## 3. 节点详细解析 这个插件包含3个节点:MarkItDown、Image2Markdown和LLMClient。 ### 3.1 MarkItDown节点 - 文件转换器 这个节点就像一个万能的文件阅读器,它能读取PDF、PowerPoint、Excel、Word文档、HTML网页文件,然后把内容转换成Markdown格式。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 文件路径 | file_path | 文件路径字符串 | 根据实际文件位置 | 告诉节点你要转换的文件在哪里,就像给快递员一个地址 | 指定输入文件的完整路径 | 比如:`C:/Users/你的用户名/Documents/测试文件.pdf` | | 输出格式 | output_format | markdown | markdown | 决定输出的文本格式,这里固定是markdown | 指定输出的文本标记语言格式 | 保持默认的markdown就行 | | 编码格式 | encoding | utf-8 | utf-8 | 决定文本的编码方式,就像选择中文还是英文字典 | 字符编码标准,确保中文等特殊字符正常显示 | 处理中文文件时保持utf-8 | ### 3.2 Image2Markdown节点 - 图片内容识别器 这个节点就像一个"看图说话"的机器人,它能看懂图片内容,然后用文字描述出来,支持JPEG、PNG、WebP、TIFF、SVG、BMP等格式。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 图片路径 | image_path | 图片文件路径 | 根据实际图片位置 | 告诉节点你要识别的图片在哪里 | 指定输入图片文件的完整路径 | 比如:`C:/Pictures/图表.jpg` | | LLM客户端 | llm_client | LLM连接对象 | 来自LLMClient节点 | 连接到能理解图片的AI助手,就像连接到一个聪明的翻译官 | 大语言模型客户端实例,用于图像理解 | 必须先设置LLMClient节点,然后连接过来 | | 提示词 | prompt | 文本描述 | 自定义或默认 | 告诉AI你希望它怎么描述这张图片 | 指导模型如何分析和描述图像内容 | 比如:"请详细描述这张图片中的内容" | | 最大字符数 | max_tokens | 数字 | 1000-4000 | 限制AI回答的长度,就像限制作文字数 | 控制生成文本的最大长度 | 简单图片用1000,复杂图片用4000 | | 温度值 | temperature | 0.0-1.0 | 0.3-0.7 | 控制AI回答的创造性,数值越低越严谨 | 控制生成文本的随机性和创造性 | 需要准确描述用0.3,需要生动描述用0.7 | ### 3.3 LLMClient节点 - AI助手连接器 这个节点就像一个"电话接线员",它负责连接到OpenAI兼容的AI服务,为Image2Markdown节点提供图片理解能力。 #### 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | API地址 | api_base | URL地址 | 根据服务商 | AI服务的网址,就像打电话需要号码 | API服务的基础URL | OpenAI用`https://api.openai.com/v1` | | API密钥 | api_key | 密钥字符串 | 你的实际密钥 | 证明你有权限使用AI服务的"身份证" | 用于身份验证的密钥 | 从OpenAI官网获取,形如`sk-...` | | 模型名称 | model_name | 模型名称 | gpt-4o 或 gpt-4o-mini | 选择要使用的AI模型,就像选择不同能力的助手 | 指定使用的语言模型 | 看图片用gpt-4o,省钱用gpt-4o-mini | | 超时时间 | timeout | 数字(秒) | 30-60 | 等待AI回答的最长时间,就像电话等待时间 | 请求超时时间限制 | 复杂图片用60秒,简单图片用30秒 | | 重试次数 | max_retries | 数字 | 3 | 如果失败了最多重试几次 | 请求失败时的最大重试次数 | 网络不稳定时可以设置5次 | ## 4. 使用技巧和建议 ### 4.1 文件转换技巧 - **文件路径要准确**:确保文件路径没有中文特殊字符,最好用英文路径 - **文件格式支持**:PDF效果最好,复杂的Excel表格可能需要手动调整 - **大文件处理**:超过10MB的文件转换可能比较慢,要耐心等待 ### 4.2 图片识别技巧 - **图片质量很重要**:清晰的图片识别效果更好 - **合适的提示词**:告诉AI你想要什么样的描述,比如"请用表格形式整理图片中的数据" - **控制成本**:gpt-4o-mini便宜但效果稍差,gpt-4o贵但效果好 ### 4.3 节点连接顺序 1. 先设置LLMClient节点(如果要用图片识别) 2. 然后连接到Image2Markdown节点 3. MarkItDown节点可以独立使用 ## 5. 常见问题解答 **Q:为什么我的文件转换失败了?** A:检查文件路径是否正确,文件是否损坏,确保文件格式在支持列表内。 **Q:图片识别需要花钱吗?** A:是的,因为要调用OpenAI的API,会产生费用。建议先用gpt-4o-mini测试。 **Q:支持中文文件吗?** A:支持,但建议文件路径用英文,内容可以是中文。 **Q:转换后的文字格式乱了怎么办?** A:这是正常的,Markdown格式需要用支持的编辑器查看,或者后续用其他节点处理。 **Q:为什么图片识别结果不准确?** A:可能是图片质量问题,或者提示词不够具体。试试更清晰的图片和更详细的提示词。 ## 6. 实际应用场景 ### 6.1 文档整理工作流 - 把公司的各种文档(PDF、Word、Excel)统一转换成Markdown格式 - 方便后续用AI处理或者批量编辑 ### 6.2 图表数据提取 - 把图片中的表格、图表转换成文字描述 - 适合处理扫描件或者截图 ### 6.3 多媒体内容处理 - 结合其他ComfyUI节点,创建自动化的文档处理流程 - 比如:文档转换 → 内容提取 → AI分析 → 生成报告 记住,这个插件最大的价值在于它能把各种"看不懂"的文件格式转换成ComfyUI能处理的文本格式,为后续的AI处理工作打下基础。就像把各种方言都翻译成普通话一样,让后面的工作更顺畅!
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com