Gorden Sun

Gorden Sun

0 关注者

2个月前

OCRFlux:开源最佳PDF识别模型 效果非常好,相比其他OCR有几大核心亮点: 1)能自动跨页合并段落和表格(首个实现该功能的开源模型),即使页面底部有注释,也能自动跳转注释的位置。如下方图1和图2 2)识别精准度高,96%的准确率,明显高于olmOCR-7B 3)3B大小的模型,3090单卡可运行 4)Markdown输出格式