时政
财经
科技
虚拟货币
其他
登录
#OCR
关注
dontbesilent
3周前
用了半天 vivo,才知道原来安卓已经这么先进了😂 系统全局一键 OCR、一键翻译、一键 AI 对话 可以在 iPhone 不亮屏的情况下,用 vivo 读取 iPhone 短信收到的验证码 虽然模型只是 DeepSeek,但是查资料和翻译场景完全够用了 对比 iPhone 的傻逼 Siri,我每次说 “41” 都被识别成 “40 亿”,用个语音计算器都费劲 不知道这几年用 iOS 是图啥,我觉得应该给广大 iPhone 用户科普一下安卓机的现状 (vivo 的同学看见了请 DM 我,勾兑一下小红书抖音商单)
苹果Liquid Glass:开发者适配陷两难,AI助力AR或成未来· 14 条信息
#vivo
#安卓
#iPhone
#OCR
#AI
分享
评论 0
0
Limbo
3周前
传统OCR 像拆解剧本:OCR、版面检测、分块、嵌入……每一步都可能出错,表格、图例、空间关系全都丢失,信息碎片化严重。 基于视觉模型新范式:直接把每页文档当作图片输入大模型,利用视觉模型和多模态语言模型,保留全部空间和视觉细节,像人一样理解文档。
#OCR
#视觉模型
#大模型
#文档理解
#信息提取
分享
评论 0
0
karminski-牙医
2个月前
这个新的OCR模型 MonkeyOCR-3B 好猛啊,官方评测比 MinerU 分数都高。有大量 文档 OCR 需求的同学可以下载试试了,就3B大小,很容易运行。 地址:
#OCR
#MonkeyOCR-3B
#MinerU
分享
评论 0
0
Geek
2个月前
Extract2MDPublic PDF 到 Markdown 转换解决方案,结合传统文本提取、OCR 技术和现代 AI 增强功能。项目采用场景化的 API 设计,让开发者可以根据具体需求选择最适合的转换方法。 提供 5 种:快速转换 、高精度、转换 + LLM 增强、高精度 + LLM 增强、综合转换 + LLM(推荐)
#PDF转换
#Markdown
#OCR
#AI增强
#API设计
#开发者
#文本提取
分享
评论 0
0
AIGCLINK
5个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
Gorden Sun
5个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源
#OCR
#视觉语言模型
#模型权重
#微调
#PDF
#GitHub
#4090
分享
评论 0
0
GitHubDaily
7个月前
一款开箱即用的翻译和 OCR 工具:STranslate。 - 支持划词、截图、鼠标划词等多种翻译方式 - 支持离线使用 OCR,效果好且响应迅速 - 支持 OpenAI、DeepL、Google 等 10 多家翻译服务 - 支持全局 TTS、写作、自定义 Prompt 等 GitHub: 看起来挺不错的,值得安装试用下。
#STranslate
#翻译工具
#OCR
#GitHub
#无纸化办公
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞