#OpenDataLab

4个月前

今天使用 MinerU 作为本地的文档解析器，发现使用 VLM 模式，对于图片 OCR 的处理效果特别好，文本、图片、布局都处理的比较 OK。MinerU Backend 两大类：传统 Pipeline 模式和 VLM（视觉语言模型）模式， VLM 是OpenDataLab 自研的端到端大模型效果很能打。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#MinerU #文档解析器 #VLM模式 #图片OCR #OpenDataLab