时政
财经
科技
虚拟货币
其他
登录
#PaddleOCR-VL
关注
𝗖𝘆𝗱𝗶𝗮𝗿
1个月前
近期AI浏览器方向、新模型方向依旧火热,不过随着 DeepSeek-OCR开源的革命性文字识别模型到来,也迎来了模型OCR这个赛道的新纪元,无论是 光学压缩技术 还是 模拟人类记忆机制,相信在这个赛道不会缺乏新的追逐,而且,这是传统ETL的基础。 于是,这两天我观察了一下各大模型平台的OCR模型竞争,Huggingface 和 ModelScope,我发现了一个老朋友,PaddleOCR-VL(而且,连续5天HuggingFace Trending 第一)。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。 首先,对比一下两个模型: PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖(109种语言) - 成熟的工业级生态和工具链 - 多种调用方式(命令行、Python API、vLLM 加速) - 最低的硬件部署门槛(0.9B) DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力 从目前来看,PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者,并且Benchmark依然强悍!之前在很多开源社区以及项目中就关注到PaddleOCR-VL。 从几个我亲自实践的场景Case来看,这两个模型输出的结构标注都非常完善,没有出现错标。但是,部分比较复杂的页面出现了漏标。而且,从对比来看,PaddleOCR-VL 对页面内容的清洗和过滤做过微调,比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉,而 DeepSeek-OCR 则会保留这些内容。 我的几个实验场景: - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符,第二次会回归正常,而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失,PaddleOCR-VL非常稳定,相关图像存储、标记、非常准确。 总结下适用场景 PaddleOCR-VL: - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR: - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景 基于我的使用场景,总体还说 PaddleOCR 不愧被大家成为:最强OCR之神!
#OCR
#PaddleOCR-VL
#DeepSeek-OCR
#模型对比
#文字识别
分享
评论 0
0
铁锤人
1个月前
这两天看到好多人在关心DeepseekOCR和百度PaddleOCR-VL的对比,我有些技术见解 我之前公司开发过文档翻译,选型PaddleOCR-VL 现在结论依然不变, 因为在OmniBenchDoc V1.5 权威榜单中: 1. 表格结构理解:Table TEDS 得分,领先 15.5 分 2. 表格语义理解:91.43分,领先 9.9 分 3. 综合得分 92.56 vs 86.46,领先 6.1 分 从选型角度来说: 1. 做OCR文档解析工作流(文本+表格+公式+阅读顺序)时,相比后者更好 2. 模型比较小,方便用户端侧推理下载webgpu推理。 但若你关注长上下文压缩等新思路,后者值得在相关场景中探索。
#DeepseekOCR
#PaddleOCR-VL
#文档解析
#表格识别
#性能领先
分享
评论 0
0
nicekate
1个月前
PaddleOCR-VL 依赖下了,模型下了,突然发现 Mac 上还用不了
#PaddleOCR-VL
#Mac
#模型
#无法使用
#技术问题
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞