时政
财经
科技
登录
#OCR
关注
karminski-牙医
2周前
这个新的OCR模型 MonkeyOCR-3B 好猛啊,官方评测比 MinerU 分数都高。有大量 文档 OCR 需求的同学可以下载试试了,就3B大小,很容易运行。 地址:
#OCR
#MonkeyOCR-3B
#MinerU
分享
评论 0
0
Geek
1个月前
Extract2MDPublic PDF 到 Markdown 转换解决方案,结合传统文本提取、OCR 技术和现代 AI 增强功能。项目采用场景化的 API 设计,让开发者可以根据具体需求选择最适合的转换方法。 提供 5 种:快速转换 、高精度、转换 + LLM 增强、高精度 + LLM 增强、综合转换 + LLM(推荐)
#PDF转换
#Markdown
#OCR
#AI增强
#API设计
#开发者
#文本提取
分享
评论 0
0
AIGCLINK
3个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
Gorden Sun
3个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源
#OCR
#视觉语言模型
#模型权重
#微调
#PDF
#GitHub
#4090
分享
评论 0
0
GitHubDaily
6个月前
一款开箱即用的翻译和 OCR 工具:STranslate。 - 支持划词、截图、鼠标划词等多种翻译方式 - 支持离线使用 OCR,效果好且响应迅速 - 支持 OpenAI、DeepL、Google 等 10 多家翻译服务 - 支持全局 TTS、写作、自定义 Prompt 等 GitHub: 看起来挺不错的,值得安装试用下。
#STranslate
#翻译工具
#OCR
#GitHub
#无纸化办公
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞