#PaddleOCR-VL

𝗖𝘆𝗱𝗶𝗮𝗿

4个月前

近期AI浏览器方向、新模型方向依旧火热，不过随着 DeepSeek-OCR开源的革命性文字识别模型到来，也迎来了模型OCR这个赛道的新纪元，无论是光学压缩技术还是模拟人类记忆机制，相信在这个赛道不会缺乏新的追逐，而且，这是传统ETL的基础。于是，这两天我观察了一下各大模型平台的OCR模型竞争，Huggingface 和 ModelScope，我发现了一个老朋友，PaddleOCR-VL（而且，连续5天HuggingFace Trending 第一）。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。首先，对比一下两个模型： PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖（109种语言） - 成熟的工业级生态和工具链 - 多种调用方式（命令行、Python API、vLLM 加速） - 最低的硬件部署门槛（0.9B） DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力从目前来看，PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者，并且Benchmark依然强悍！之前在很多开源社区以及项目中就关注到PaddleOCR-VL。从几个我亲自实践的场景Case来看，这两个模型输出的结构标注都非常完善，没有出现错标。但是，部分比较复杂的页面出现了漏标。而且，从对比来看，PaddleOCR-VL 对页面内容的清洗和过滤做过微调，比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉，而 DeepSeek-OCR 则会保留这些内容。我的几个实验场景： - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符，第二次会回归正常，而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失，PaddleOCR-VL非常稳定，相关图像存储、标记、非常准确。总结下适用场景 PaddleOCR-VL： - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR： - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景基于我的使用场景，总体还说 PaddleOCR 不愧被大家成为：最强OCR之神！

#OCR #PaddleOCR-VL #DeepSeek-OCR #模型对比 #文字识别

4个月前

这两天看到好多人在关心DeepseekOCR和百度PaddleOCR-VL的对比，我有些技术见解我之前公司开发过文档翻译，选型PaddleOCR-VL 现在结论依然不变，因为在OmniBenchDoc V1.5 权威榜单中： 1. 表格结构理解：Table TEDS 得分，领先 15.5 分 2. 表格语义理解：91.43分，领先 9.9 分 3. 综合得分 92.56 vs 86.46，领先 6.1 分从选型角度来说： 1. 做OCR文档解析工作流（文本+表格+公式+阅读顺序）时，相比后者更好 2. 模型比较小，方便用户端侧推理下载webgpu推理。但若你关注长上下文压缩等新思路，后者值得在相关场景中探索。

#DeepseekOCR #PaddleOCR-VL #文档解析 #表格识别 #性能领先

4个月前

PaddleOCR-VL 依赖下了，模型下了，突然发现 Mac 上还用不了

#PaddleOCR-VL #Mac #模型 #无法使用 #技术问题