#OCR

5天前

有人问我做的是什么需求，其实说句实话，我做的是ocr相关，真的烂大街了，但是还是有用户付费，不过我弄的是积分制，后续考虑改成订阅制，可以做到持续收费 #独立开发者 #buildinpublic

#独立开发者 #buildinpublic #OCR #积分制 #订阅制

5个月前

还是我们公司的财务妹子幸福别家公司都在手动整理发票，我们家财务妹子直接用AI小哥哥开发的DeepSeek OCR应用，自动入库发票了，一个字都不用打大佬们，你家领导如果是财务大总管的话，一定要买一套懒猫AI算力舱给她，2025年财务的最佳双11礼物

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#财务 #AI #OCR #发票 #效率

𝗖𝘆𝗱𝗶𝗮𝗿

5个月前

近期AI浏览器方向、新模型方向依旧火热，不过随着 DeepSeek-OCR开源的革命性文字识别模型到来，也迎来了模型OCR这个赛道的新纪元，无论是光学压缩技术还是模拟人类记忆机制，相信在这个赛道不会缺乏新的追逐，而且，这是传统ETL的基础。于是，这两天我观察了一下各大模型平台的OCR模型竞争，Huggingface 和 ModelScope，我发现了一个老朋友，PaddleOCR-VL（而且，连续5天HuggingFace Trending 第一）。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。首先，对比一下两个模型： PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖（109种语言） - 成熟的工业级生态和工具链 - 多种调用方式（命令行、Python API、vLLM 加速） - 最低的硬件部署门槛（0.9B） DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力从目前来看，PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者，并且Benchmark依然强悍！之前在很多开源社区以及项目中就关注到PaddleOCR-VL。从几个我亲自实践的场景Case来看，这两个模型输出的结构标注都非常完善，没有出现错标。但是，部分比较复杂的页面出现了漏标。而且，从对比来看，PaddleOCR-VL 对页面内容的清洗和过滤做过微调，比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉，而 DeepSeek-OCR 则会保留这些内容。我的几个实验场景： - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符，第二次会回归正常，而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失，PaddleOCR-VL非常稳定，相关图像存储、标记、非常准确。总结下适用场景 PaddleOCR-VL： - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR： - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景基于我的使用场景，总体还说 PaddleOCR 不愧被大家成为：最强OCR之神！

#OCR #PaddleOCR-VL #DeepSeek-OCR #模型对比 #文字识别

5个月前

看了这个deepseek的ocr，感觉就是卧槽，还能这样？让我想到了一个英文单词叫Photographic memory，以前的ocr是把图片上的东西转成文本，然后让程序或者大模型就直接读了，现在等于读图就读出了文字的意思，把文档当成一个完整的视觉对象来理解，他已经不是一目10行了，不是一目就一页，牛逼！

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #OCR #Photographic memory #视觉对象理解 #技术赞叹

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

5个月前

interesting 我还以为是个OCR光学字符识别模型，结果貌似打通了多模态vLLM。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#OCR #多模态vLLM #模型

6个月前

Qwen3-VL-235B-A22B-Instruct 在ModelScope 魔搭上线啦🥳，魔搭啥时候能成我白嫖首选啊，关于Qwen3-VL有多牛批就不多bb了。 AI一句话锐评：在实用型任务（OCR、文档理解、智能体、编程）上简直起飞，综合能力接近甚至碾压业界顶流。但在抽象逻辑推理与空间定位等烧脑任务上还是有点拉胯，需要再练练。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#Qwen3-VL #ModelScope魔搭 #AI #OCR #文档理解

6个月前

热衷寻找各种邪修项目…… OCR Server 可将您的 iPhone 转变为一台强大的本地 OCR 服务器。采用 Apple Vision Framework 技术，无需依赖云端，可以无限制使用，完全保护隐私。 - 启动应用 - 访问显示的 IP 地址 - 上传图像获取文字识别结果 - 通过 API 将服务集成到您的应用中

#OCR #iPhone #本地OCR服务器 #Apple Vision Framework #隐私保护

8个月前

用了半天 vivo，才知道原来安卓已经这么先进了😂 系统全局一键 OCR、一键翻译、一键 AI 对话可以在 iPhone 不亮屏的情况下，用 vivo 读取 iPhone 短信收到的验证码虽然模型只是 DeepSeek，但是查资料和翻译场景完全够用了对比 iPhone 的傻逼 Siri，我每次说 “41” 都被识别成 “40 亿”，用个语音计算器都费劲不知道这几年用 iOS 是图啥，我觉得应该给广大 iPhone 用户科普一下安卓机的现状（vivo 的同学看见了请 DM 我，勾兑一下小红书抖音商单）

苹果Liquid Glass：开发者适配陷两难，AI助力AR或成未来· 104 条信息

#vivo #安卓 #iPhone #OCR #AI

8个月前

传统OCR 像拆解剧本：OCR、版面检测、分块、嵌入……每一步都可能出错，表格、图例、空间关系全都丢失，信息碎片化严重。基于视觉模型新范式：直接把每页文档当作图片输入大模型，利用视觉模型和多模态语言模型，保留全部空间和视觉细节，像人一样理解文档。

#OCR #视觉模型 #大模型 #文档理解 #信息提取

karminski-牙医

9个月前

这个新的OCR模型 MonkeyOCR-3B 好猛啊，官方评测比 MinerU 分数都高。有大量文档 OCR 需求的同学可以下载试试了，就3B大小，很容易运行。地址：

#OCR #MonkeyOCR-3B #MinerU

10个月前

Extract2MDPublic PDF 到 Markdown 转换解决方案，结合传统文本提取、OCR 技术和现代 AI 增强功能。项目采用场景化的 API 设计，让开发者可以根据具体需求选择最适合的转换方法。提供 5 种：快速转换、高精度、转换 + LLM 增强、高精度 + LLM 增强、综合转换 + LLM（推荐）

#PDF转换 #Markdown #OCR #AI增强 #API设计 #开发者 #文本提取

1年前

牛，Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！ Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素特点： 1、原生多语言和多模态，支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX 格式等，尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型，尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快，单节点每分钟可处理2000页 5、支持使用文档作为提示，以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral

#Mistral #OCR #科技创新 #文档理解 #多语言支持 #多模态 #科学论文 #地表最强 #文档元素 #复杂文档

1年前

olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：

#开源 #OCR #视觉语言模型 #模型权重 #微调 #PDF #GitHub #4090

1年前

一款开箱即用的翻译和 OCR 工具：STranslate。 - 支持划词、截图、鼠标划词等多种翻译方式 - 支持离线使用 OCR，效果好且响应迅速 - 支持 OpenAI、DeepL、Google 等 10 多家翻译服务 - 支持全局 TTS、写作、自定义 Prompt 等 GitHub：看起来挺不错的，值得安装试用下。

#STranslate #翻译工具 #OCR #GitHub #无纸化办公