# ComfyUI-PaddleOcr 插件完整使用教程 ## 1. 插件简介 ComfyUI-PaddleOcr 是一个专门用来识别图片中文字的神奇小工具。想象一下,你有一张包含文字的图片,但是你想把里面的文字提取出来,或者想知道文字在图片的哪个位置,这个插件就像是一个"文字侦探",能帮你找到并识别图片中的所有文字内容。 **插件原地址:** https://github.com/civen-cn/ComfyUI-PaddleOcr **主要功能:** - 从图片中识别文字内容(就像用手机扫描文件一样) - 找出图片中文字的具体位置(给文字画个框框) - 支持多种语言的文字识别 - 可以处理各种角度和样式的文字 ## 2. 如何安装 ### 方法一:通过ComfyUI管理器安装(推荐) 1. 打开ComfyUI 2. 点击右侧的"Manager"按钮 3. 点击"Install Custom Nodes" 4. 在搜索框中输入"PaddleOcr" 5. 找到"ComfyUI-PaddleOcr"并点击"Install" 6. 重启ComfyUI ### 方法二:手动安装 1. 打开ComfyUI安装目录下的`custom_nodes`文件夹 2. 在这个文件夹里右键选择"Git Bash Here"(需要先安装Git) 3. 输入命令:`git clone https://github.com/civen-cn/ComfyUI-PaddleOcr.git` 4. 重启ComfyUI ## 3. 节点详细解析 ### 3.1 PaddleOCR Text Detection 节点 - 文字位置侦探 这个节点就像是一个"文字定位器",它不会告诉你文字内容是什么,但会告诉你文字在图片的哪个位置,并且给每个文字区域画个框框(生成遮罩)。 #### 3.1.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入图片 | image | 图片文件 | 任意清晰图片 | 就像给侦探一张照片让他找线索 | 输入需要检测文字的图像数据 | 连接从Load Image节点来的图片 | | 检测文字 | text | 文字内容 | 要找的文字 | 告诉侦探你要找什么特定的文字 | 指定要在图像中检测的目标文字内容 | 输入"价格"就只找价格相关的文字 | | 检测阈值 | det_threshold | 0.0-1.0 | 0.6 | 调节侦探的"眼神",数值越高要求越严格 | 文字检测的置信度阈值 | 0.3检测松一点,0.8检测严格一点 | | 文字方向 | use_angle_cls | true/false | true | 是否要侦探转着脑袋看倾斜的文字 | 是否启用文字角度分类功能 | 图片中有旋转文字时开启 | | 识别语言 | lang | 多种选择 | ch | 告诉侦探用什么"语言眼镜"看文字 | 设置OCR识别的语言类型 | ch(中文)、en(英文)、japan(日文) | ### 3.2 PaddleOCR Text Recognition 节点 - 文字内容翻译官 这个节点就像是一个"文字翻译官",它会把图片中的文字内容全部"念"出来,告诉你图片里到底写了什么。 #### 3.2.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入图片 | image | 图片文件 | 任意含文字图片 | 就像给翻译官一张纸让他念出来 | 输入需要识别文字的图像数据 | 连接从Load Image节点来的图片 | | 识别精度 | rec_threshold | 0.0-1.0 | 0.5 | 调节翻译官的"认真程度" | 文字识别的置信度阈值 | 0.3识别宽松些,0.8识别严格些 | | 识别语言 | lang | 多种选择 | ch | 告诉翻译官用什么语言去理解文字 | 设置OCR识别的语言类型 | ch(中文)、en(英文)、korean(韩文) | | 文字方向 | use_angle_cls | true/false | true | 翻译官是否要歪着头看倾斜的文字 | 是否启用文字角度分类功能 | 有旋转文字时必须开启 | | 输出格式 | output_format | text/json | text | 选择翻译官汇报结果的方式 | 选择输出结果的数据格式 | text只要文字,json要详细信息 | ### 3.3 PaddleOCR Full Pipeline 节点 - 全能文字专家 这个节点就像是一个"全能文字专家",既能找到文字位置,又能识别文字内容,一个节点搞定所有事情。 #### 3.3.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入图片 | image | 图片文件 | 任意图片 | 给专家一张图片让他全面分析 | 输入需要处理的图像数据 | 连接Load Image节点的输出 | | 检测阈值 | det_threshold | 0.0-1.0 | 0.6 | 调节专家找文字时的"眼神"好坏 | 文字检测的置信度阈值 | 0.3找得多但可能有误判,0.8找得少但很准确 | | 识别阈值 | rec_threshold | 0.0-1.0 | 0.5 | 调节专家认文字时的"认真程度" | 文字识别的置信度阈值 | 0.3识别宽松,0.8识别严格 | | 识别语言 | lang | 多种选择 | ch | 告诉专家用什么语言去理解文字 | 设置OCR识别的语言类型 | ch(中文)、en(英文)、french(法文) | | 文字方向 | use_angle_cls | true/false | true | 专家是否要转着头看各个角度的文字 | 是否启用文字角度分类功能 | 有倾斜或旋转文字时开启 | | 返回位置 | return_coordinates | true/false | false | 是否要专家汇报每个文字的具体位置 | 是否返回文字区域的坐标信息 | 需要知道文字位置时开启 | | 合并结果 | merge_result | true/false | true | 是否要专家把所有文字连成一段话 | 是否将所有识别结果合并为一个文本 | 要完整句子时开启,要分别处理时关闭 | ### 3.4 PaddleOCR Batch Processing 节点 - 批量文字处理员 这个节点就像是一个"批量文字处理员",能同时处理多张图片,提高工作效率。 #### 3.4.1 参数详解 | 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 输入图片组 | images | 图片列表 | 多张图片 | 给处理员一摞图片让他挨个处理 | 输入需要批量处理的图像数组 | 连接Load Image Batch节点的输出 | | 处理模式 | process_mode | sequential/parallel | sequential | 选择处理员是排队处理还是同时处理 | 选择批量处理的执行模式 | sequential省内存,parallel速度快 | | 最大数量 | max_count | 1-100 | 10 | 限制处理员一次最多处理多少张图 | 设置单次处理的最大图片数量 | 根据电脑性能调整,配置低就设小点 | | 识别语言 | lang | 多种选择 | ch | 告诉处理员用什么语言理解文字 | 设置OCR识别的语言类型 | 处理中文图片就选ch | | 输出格式 | output_format | list/concat | list | 选择处理员汇报结果的方式 | 选择批量处理结果的输出格式 | list分别显示,concat合并显示 | ## 4. 使用技巧和建议 ### 4.1 图片质量优化技巧 - **图片清晰度:** 就像看书需要好光线一样,图片越清晰,文字识别效果越好 - **文字大小:** 文字太小就像蚂蚁一样难识别,建议文字像正常阅读大小 - **背景对比:** 黑字白底或白字黑底效果最好,就像黑夜中的白灯泡最显眼 ### 4.2 参数调优建议 - **新手设置:** 检测阈值0.6,识别阈值0.5,基本能应对大部分情况 - **追求精确:** 两个阈值都设置0.8,虽然可能漏掉一些文字,但识别的都很准确 - **追求全面:** 两个阈值都设置0.3,能找到更多文字,但可能有一些误判 ### 4.3 语言选择指南 - **中文图片:** 选择"ch",包含中文、英文、数字 - **纯英文:** 选择"en",识别速度更快 - **多语言混合:** 选择"ch",兼容性最好 ## 5. 常见问题解答 ### Q1: 为什么有些文字识别不出来? **答:** 可能原因及解决方案: - 图片太模糊 → 用更清晰的图片 - 文字太小 → 放大图片或裁剪文字部分 - 阈值设置太高 → 降低检测阈值和识别阈值 - 文字颜色和背景太相似 → 调整图片对比度 ### Q2: 识别的文字有错误怎么办? **答:** 解决方法: - 提高识别阈值,过滤掉不确定的结果 - 确保选择了正确的语言 - 检查图片中的文字是否清晰可见 - 对于特殊字体,可能需要预处理图片 ### Q3: 处理速度太慢怎么办? **答:** 优化建议: - 降低图片分辨率(保持文字清晰的前提下) - 使用批处理时选择sequential模式 - 减少同时处理的图片数量 - 关闭不必要的功能(如角度分类) ### Q4: 倾斜或旋转的文字识别不准? **答:** 解决方案: - 确保开启了"文字方向"功能 - 预先旋转图片让文字水平 - 适当降低阈值让系统更宽松地识别 ## 6. 进阶应用场景 ### 6.1 自动化文档处理 将这个插件与其他ComfyUI节点结合,可以实现: - 自动提取扫描文档中的文字 - 批量处理发票、收据等单据 - 将图片中的文字转换为可编辑的文本 ### 6.2 图像内容分析 结合其他节点可以: - 分析图片中的文字内容并进行分类 - 提取特定关键词进行后续处理 - 构建基于文字内容的图片搜索系统 ### 6.3 创意工作流 - 从手写稿件中提取文字进行数字化 - 分析艺术作品中的文字元素 - 为图片自动添加基于内容的标签 ## 7. 故障排除 ### 7.1 安装问题 - 如果安装失败,检查网络连接 - 确保ComfyUI版本兼容 - 查看控制台错误信息 ### 7.2 运行错误 - 检查是否缺少必要的依赖库 - 确认图片格式是否支持 - 验证输入参数是否正确 ### 7.3 性能问题 - 监控内存使用情况 - 适当调整批处理大小 - 考虑使用更高性能的硬件 --- **小贴士:** 这个插件就像是你的"文字助手",熟练使用后能大大提高处理含文字图片的效率。建议先用简单的图片练手,逐步掌握各种参数的效果,然后再应用到复杂的工作场景中。
ComfyUI图像合并插件comfyui-merge使用教程 2025-07-03 22:44 ComfyUI 图像合并插件教程 (comfyui-merge) 1. 插件简介 这是一个专门用来合并图片的 ComfyUI 插件,就像用 PS 把多张图片叠在一起那样。它的特别之处在于你精确控制每张图片的混合方式。 GitHub 地址:https://github.com/LingSss9/com