今天使用 MinerU 作为本地的文档解析器，发现使用 VLM 模式，对于图片 OCR 的处理效果特别好，文本、图片、布局都处理的比较 OK。MinerU Backend 两大类：传统 Pipeline 模式和 VLM（视觉语言模型）模式， VLM 是OpenDataLab 自研的端到端大模型效果很能打。

#MinerU #文档解析器 #VLM模式 #图片OCR #OpenDataLab

相关新闻

Gorden Sun

5个月前

DeepSeek开源DeepSeek-OCR OCR模型，效果比minerU 2.0略好（但是minerU已经有2.5版本了）模型：

Yinsen

9个月前

🎉 Cherry Studio 官宣与领先的文档预处理服务 MinerU 达成官方合作！MinerU 强大的文档解析能力已深度集成至知识库，能精准解析 PDF、图表、公式等复杂文档，显著提升 AI 问答质量。为庆祝合作，每位用户每日可享 500 页免费处理额度！立即体验智能文档处理新高度！

karminski-牙医

9个月前

这个新的OCR模型 MonkeyOCR-3B 好猛啊，官方评测比 MinerU 分数都高。有大量文档 OCR 需求的同学可以下载试试了，就3B大小，很容易运行。地址：

关联事件

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。