#表格识别

4个月前

这两天看到好多人在关心DeepseekOCR和百度PaddleOCR-VL的对比，我有些技术见解我之前公司开发过文档翻译，选型PaddleOCR-VL 现在结论依然不变，因为在OmniBenchDoc V1.5 权威榜单中： 1. 表格结构理解：Table TEDS 得分，领先 15.5 分 2. 表格语义理解：91.43分，领先 9.9 分 3. 综合得分 92.56 vs 86.46，领先 6.1 分从选型角度来说： 1. 做OCR文档解析工作流（文本+表格+公式+阅读顺序）时，相比后者更好 2. 模型比较小，方便用户端侧推理下载webgpu推理。但若你关注长上下文压缩等新思路，后者值得在相关场景中探索。

#DeepseekOCR #PaddleOCR-VL #文档解析 #表格识别 #性能领先

4个月前

对比了一下新出的这个百度paddle ocr和pytesseract+pdfplumber，在财务报表的表格提取方面还是百度的这个飞浆赢了，不愧是sota了。。。

#百度飞浆OCR #财务报表提取 #表格识别 #SOTA #积极

1年前

基于Vision LLM把PDF转为Markdown的一款工具：vision-parse 智能提取，精确识别文本、表格可以保留文档的层级结构、样式支持多页，支持本地部署 #PDF转Markdown

#PDF转Markdown #文件转换 #智能提取 #多页支持 #本地部署 #文本识别 #表格识别