时政
财经
科技
虚拟货币
其他
登录
#表格识别
关注
铁锤人
1个月前
这两天看到好多人在关心DeepseekOCR和百度PaddleOCR-VL的对比,我有些技术见解 我之前公司开发过文档翻译,选型PaddleOCR-VL 现在结论依然不变, 因为在OmniBenchDoc V1.5 权威榜单中: 1. 表格结构理解:Table TEDS 得分,领先 15.5 分 2. 表格语义理解:91.43分,领先 9.9 分 3. 综合得分 92.56 vs 86.46,领先 6.1 分 从选型角度来说: 1. 做OCR文档解析工作流(文本+表格+公式+阅读顺序)时,相比后者更好 2. 模型比较小,方便用户端侧推理下载webgpu推理。 但若你关注长上下文压缩等新思路,后者值得在相关场景中探索。
#DeepseekOCR
#PaddleOCR-VL
#文档解析
#表格识别
#性能领先
分享
评论 0
0
biantaishabi5
1个月前
对比了一下新出的这个百度paddle ocr和pytesseract+pdfplumber,在财务报表的表格提取方面还是百度的这个飞浆赢了,不愧是sota了。。。
#百度飞浆OCR
#财务报表提取
#表格识别
#SOTA
#积极
分享
评论 0
0
AIGCLINK
11个月前
基于Vision LLM把PDF转为Markdown的一款工具:vision-parse 智能提取,精确识别文本、表格 可以保留文档的层级结构、样式 支持多页,支持本地部署 #PDF转Markdown
#PDF转Markdown
#文件转换
#智能提取
#多页支持
#本地部署
#文本识别
#表格识别
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞