时政
财经
科技
虚拟货币
其他
登录
#OCR
关注
Andy Stewart
2周前
还是我们公司的财务妹子幸福 别家公司都在手动整理发票,我们家财务妹子直接用AI小哥哥开发的DeepSeek OCR应用,自动入库发票了,一个字都不用打 大佬们,你家领导如果是财务大总管的话,一定要买一套懒猫AI算力舱给她,2025年财务的最佳双11礼物
懒猫家族新成员亮相,AI算力舱引发热议!· 104 条信息
#财务
#AI
#OCR
#发票
#效率
分享
评论 0
0
𝗖𝘆𝗱𝗶𝗮𝗿
3周前
近期AI浏览器方向、新模型方向依旧火热,不过随着 DeepSeek-OCR开源的革命性文字识别模型到来,也迎来了模型OCR这个赛道的新纪元,无论是 光学压缩技术 还是 模拟人类记忆机制,相信在这个赛道不会缺乏新的追逐,而且,这是传统ETL的基础。 于是,这两天我观察了一下各大模型平台的OCR模型竞争,Huggingface 和 ModelScope,我发现了一个老朋友,PaddleOCR-VL(而且,连续5天HuggingFace Trending 第一)。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。 首先,对比一下两个模型: PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖(109种语言) - 成熟的工业级生态和工具链 - 多种调用方式(命令行、Python API、vLLM 加速) - 最低的硬件部署门槛(0.9B) DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力 从目前来看,PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者,并且Benchmark依然强悍!之前在很多开源社区以及项目中就关注到PaddleOCR-VL。 从几个我亲自实践的场景Case来看,这两个模型输出的结构标注都非常完善,没有出现错标。但是,部分比较复杂的页面出现了漏标。而且,从对比来看,PaddleOCR-VL 对页面内容的清洗和过滤做过微调,比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉,而 DeepSeek-OCR 则会保留这些内容。 我的几个实验场景: - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符,第二次会回归正常,而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失,PaddleOCR-VL非常稳定,相关图像存储、标记、非常准确。 总结下适用场景 PaddleOCR-VL: - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR: - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景 基于我的使用场景,总体还说 PaddleOCR 不愧被大家成为:最强OCR之神!
#OCR
#PaddleOCR-VL
#DeepSeek-OCR
#模型对比
#文字识别
分享
评论 0
0
biantaishabi5
3周前
看了这个deepseek的ocr,感觉就是卧槽,还能这样?让我想到了一个英文单词叫Photographic memory,以前的ocr是把图片上的东西转成文本,然后让程序或者大模型就直接读了,现在等于读图就读出了文字的意思,把文档当成一个完整的视觉对象来理解,他已经不是一目10行了,不是一目就一页,牛逼!
深度学习模型升级引发AI能力大跃进,行业迎新变革· 131 条信息
#DeepSeek
#OCR
#Photographic memory
#视觉对象理解
#技术赞叹
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
interesting 我还以为是个OCR光学字符识别模型,结果貌似打通了多模态vLLM。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#OCR
#多模态vLLM
#模型
分享
评论 0
0
Geek
1个月前
Qwen3-VL-235B-A22B-Instruct 在ModelScope 魔搭上线啦🥳,魔搭啥时候能成我白嫖首选啊,关于Qwen3-VL有多牛批就不多bb了。 AI一句话锐评:在实用型任务(OCR、文档理解、智能体、编程)上简直起飞,综合能力接近甚至碾压业界顶流。但在抽象逻辑推理与空间定位等烧脑任务上还是有点拉胯,需要再练练。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 131 条信息
#Qwen3-VL
#ModelScope魔搭
#AI
#OCR
#文档理解
分享
评论 0
0
Geek
2个月前
热衷寻找各种邪修项目…… OCR Server 可将您的 iPhone 转变为一台强大的本地 OCR 服务器。采用 Apple Vision Framework 技术,无需依赖云端,可以无限制使用,完全保护隐私。 - 启动应用 - 访问显示的 IP 地址 - 上传图像获取文字识别结果 - 通过 API 将服务集成到您的应用中
#OCR
#iPhone
#本地OCR服务器
#Apple Vision Framework
#隐私保护
分享
评论 0
0
dontbesilent
3个月前
用了半天 vivo,才知道原来安卓已经这么先进了😂 系统全局一键 OCR、一键翻译、一键 AI 对话 可以在 iPhone 不亮屏的情况下,用 vivo 读取 iPhone 短信收到的验证码 虽然模型只是 DeepSeek,但是查资料和翻译场景完全够用了 对比 iPhone 的傻逼 Siri,我每次说 “41” 都被识别成 “40 亿”,用个语音计算器都费劲 不知道这几年用 iOS 是图啥,我觉得应该给广大 iPhone 用户科普一下安卓机的现状 (vivo 的同学看见了请 DM 我,勾兑一下小红书抖音商单)
苹果Liquid Glass:开发者适配陷两难,AI助力AR或成未来· 97 条信息
#vivo
#安卓
#iPhone
#OCR
#AI
分享
评论 0
0
Limbo
3个月前
传统OCR 像拆解剧本:OCR、版面检测、分块、嵌入……每一步都可能出错,表格、图例、空间关系全都丢失,信息碎片化严重。 基于视觉模型新范式:直接把每页文档当作图片输入大模型,利用视觉模型和多模态语言模型,保留全部空间和视觉细节,像人一样理解文档。
#OCR
#视觉模型
#大模型
#文档理解
#信息提取
分享
评论 0
0
karminski-牙医
4个月前
这个新的OCR模型 MonkeyOCR-3B 好猛啊,官方评测比 MinerU 分数都高。有大量 文档 OCR 需求的同学可以下载试试了,就3B大小,很容易运行。 地址:
#OCR
#MonkeyOCR-3B
#MinerU
分享
评论 0
0
Geek
5个月前
Extract2MDPublic PDF 到 Markdown 转换解决方案,结合传统文本提取、OCR 技术和现代 AI 增强功能。项目采用场景化的 API 设计,让开发者可以根据具体需求选择最适合的转换方法。 提供 5 种:快速转换 、高精度、转换 + LLM 增强、高精度 + LLM 增强、综合转换 + LLM(推荐)
#PDF转换
#Markdown
#OCR
#AI增强
#API设计
#开发者
#文本提取
分享
评论 0
0
AIGCLINK
8个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
Gorden Sun
8个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源
#OCR
#视觉语言模型
#模型权重
#微调
#PDF
#GitHub
#4090
分享
评论 0
0
GitHubDaily
10个月前
一款开箱即用的翻译和 OCR 工具:STranslate。 - 支持划词、截图、鼠标划词等多种翻译方式 - 支持离线使用 OCR,效果好且响应迅速 - 支持 OpenAI、DeepL、Google 等 10 多家翻译服务 - 支持全局 TTS、写作、自定义 Prompt 等 GitHub: 看起来挺不错的,值得安装试用下。
#STranslate
#翻译工具
#OCR
#GitHub
#无纸化办公
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞