#DeepSeek-OCR

陈少举（🦣 @[email protected] ）

3个月前

感觉DeepSeek-OCR还是不稳定，不知道是3b模型太小了，还是Ollama有问题，或者Vulkan支持有问题。🤔

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #不稳定 #3B模型 #Ollama #vulkan

4个月前

都说 DeepSeek-OCR 屌爆了，什么未来 AI 记忆体、新纪元钥匙，开辟了全新的赛道，太强了…… 不管是一键包还是什么，我™到现在都还没跑起来，这不是一个3B模型嘛？？ DeepSeek-OCR 可视化系统基于 DeepSeek-OCR 的多模态文档解析工具。采用 FastAPI 后端 + React 前端

#DeepSeek-OCR #多模态文档解析 #FastAPI #React #3B模型

4个月前

两个 DeepSeek OCR 项目👇 DeepSeek-OCR: 一个强大的OCR解决方案，使用DeepSeek-OCR和FastAPI后端将PDF文档转换为Markdown格式 Deepseek-OCR: 把 DeepSeek-OCR 的推理栈移植到 Rust，提供 CLI 与 OpenAI 风格的服务端接口，直接在本地或服务器上运行

#DeepSeek-OCR #OCR解决方案 #FastAPI后端 #Rust #Markdown格式

4个月前

有位开发者，基于 DeepSeek-OCR 模型，做了一个高质量的 PDF 文档转 Markdown 文件的开源工具。不仅能准确地识别文档内容，还能完整保留原始格式结构，以及自动提取文档中的图片。 GitHub：支持标准化的 Markdown 转换、纯 OCR 提取和自定义提示词处理等多种模式，以及批量处理多个文档。通过 Docker 部署使用，并配备完整的 REST API 接口方便集成，注意电脑的显卡至少要 12GB 显存。

#DeepSeek-OCR #PDF转Markdown #开源工具 #文档转换 #REST API

4个月前

硅基老贼还是可以的，DeepSeek-OCR 限免。

DeepSeek数据泄露：德国下架，信任崩盘· 446 条信息

中国DeepSeek引发美国科技股暴跌事件· 170 条信息

#硅基老贼 #DeepSeek-OCR #限免 #积极

4个月前

AI 大神Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高，你可能以为他会说：“哇，这个OCR模型真厉害，识别率又提升了！” 但他没有。相反，他几乎是挥了挥手说：“它是个不错的OCR模型，但这不重要。” 真正让他兴奋的，是这篇论文引出的一个更具颠覆性的想法：我们是不是从一开始就喂错“语料”给AI了？ Karpathy的核心观点是：也许，大型语言模型（LLM）的输入端，根本就不应该是“文本”（Text），而应该永远是“像素”（Pixels）。这个想法听起来有点绕。我们明明有纯文本，为什么非要先把它“渲染”成一张图片，再喂给AI去看呢？ Karpathy给出的理由是这样的： 1. 首先，这是个效率问题。我们现在用“文本”喂AI，是通过一个叫“Tokenizer”（分词器）的东西，把句子切成一个个“词元”（Token）。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。问题是，这种方式可能很“浪费”。而DeepSeek-OCR这篇论文无意中提供了一个佐证：它证明了，AI可以只用100个“视觉词元”（Vision Tokens），就高精度地“解压缩”出包含1000个“文本词元”的原文内容。这就像，你给AI的不是一长串啰嗦的文字，而是一小块高密度的“信息压缩饼干”（图片）。AI“吃”下去（处理）的上下文窗口更短，效率自然更高。 2. 信息更“保真”，不再丢失细节想象一下，你让AI帮你阅读一个网页。现在的“文本”输入方式，就像是你通过电话把网页内容念给AI听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。而“像素”输入方式，就像是你直接截了一张图发给AI。哪个信息更全？不言而喻。 Karpathy认为，像素是一个“信息流更广”的输入方式。它不仅能处理纯文本，还能自然地理解文本的样式（粗体、颜色），甚至页面上任意的图表和图像。 3. 绕开AI 分词器前面两点只是铺垫，Karpathy真正的“怨念”在于：他想彻底干掉“分词器”（Tokenizer）。他直言不讳地“炮轰”： > “我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它‘进口’了所有Unicode编码、字节编码的丑陋之处，继承了大量历史包袱，还带来了安全/越狱风险……它必须被淘汰。” 为什么他这么恨分词器？分词器就像是AI的“嘴替”和“眼替”，它强行介入在“原始文本”和“AI大脑”之间。这个“中间商”不仅笨拙，而且会扭曲信息。 Karpathy举了个绝妙的例子：一个笑脸表情符号“😀”。 - 通过“分词器”，AI看到的不是一张“笑脸”，而是一个奇特的内部代码，比如 [tok482]。AI无法利用它在看图时学到的关于“人脸”和“微笑”的知识（迁移学习）来理解这个符号。 - 但如果输入的是一张包含“😀”的图片，AI的“视觉”部分会立刻认出：哦，这是一张微笑的脸。哪个更符合直觉？哪个更智能？像素输入，让AI得以“眼见为实”。 4. 重新定义AI的“输入”与“输出” Karpathy的设想是，未来的AI模型，其“输入端”（用户提问）应该只接收图像（像素），而“输出端”（AI回答）则可以保持为文本。为什么？因为“看懂一张图”（视觉到文本）的任务，远比“画出一张逼真的图”（文本到视觉）要容易得多，也实用得多。这种“输入用眼（像素），输出用嘴（文本）”的架构，也天然契合了AI处理信息的两种模式： - 输入（Encoding）：像人一样，一口气看完整个页面（图片），全盘理解（即双向注意力）。 - 输出（Decoding）：像人一样，一个词一个词地往外说（即自回归）。所以，DeepSeek-OCR这篇论文的真正价值，不在于它提供了一个多好的OCR工具，而在于它充当了一次“概念验证”（Proof-of-Concept）。它用实验数据证明了：用“看图”的方式来“读书”，是完全可行的，而且可能效率更高。这不仅仅是“文本到文本”（Text-to-Text）任务变成了“视觉到文本”（Vision-to-Text）任务，它暗示了一个更根本的转变——AI的主要信息入口，正在从“语言”转向“视觉”。难怪 Karpathy 最后会说，他现在“手很痒”，很想去搞一个“纯图像输入”的聊天机器人了。这个小小的OCR研究，可能真的撬动了一个大大的未来。

#AI #Andrej Karpathy #DeepSeek-OCR #像素输入 #分词器

4个月前

Deepseek-OCR 的 Issues 都是中文了，看到一个巴基斯坦小哥，也用中文问问题了。。。我觉得还是用英文好，至少你发出问题去还能看看对不对 ——

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #中文Issues #巴基斯坦小哥 #英文提问 #建议

𝗖𝘆𝗱𝗶𝗮𝗿

4个月前

近期AI浏览器方向、新模型方向依旧火热，不过随着 DeepSeek-OCR开源的革命性文字识别模型到来，也迎来了模型OCR这个赛道的新纪元，无论是光学压缩技术还是模拟人类记忆机制，相信在这个赛道不会缺乏新的追逐，而且，这是传统ETL的基础。于是，这两天我观察了一下各大模型平台的OCR模型竞争，Huggingface 和 ModelScope，我发现了一个老朋友，PaddleOCR-VL（而且，连续5天HuggingFace Trending 第一）。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。首先，对比一下两个模型： PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖（109种语言） - 成熟的工业级生态和工具链 - 多种调用方式（命令行、Python API、vLLM 加速） - 最低的硬件部署门槛（0.9B） DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力从目前来看，PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者，并且Benchmark依然强悍！之前在很多开源社区以及项目中就关注到PaddleOCR-VL。从几个我亲自实践的场景Case来看，这两个模型输出的结构标注都非常完善，没有出现错标。但是，部分比较复杂的页面出现了漏标。而且，从对比来看，PaddleOCR-VL 对页面内容的清洗和过滤做过微调，比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉，而 DeepSeek-OCR 则会保留这些内容。我的几个实验场景： - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符，第二次会回归正常，而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失，PaddleOCR-VL非常稳定，相关图像存储、标记、非常准确。总结下适用场景 PaddleOCR-VL： - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR： - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景基于我的使用场景，总体还说 PaddleOCR 不愧被大家成为：最强OCR之神！

#OCR #PaddleOCR-VL #DeepSeek-OCR #模型对比 #文字识别

4个月前

刚集中看了下 DeepSeek-OCR 模型的论文和报导，发现这个模型名字虽然叫 OCR，但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时，计算量会随文本长度平方级增长，成本极高。 DeepSeek 的思路是跳出这个困局，不再让 AI 逐字「阅读」一维文本，而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式，利用一图胜千言的原理，将海量文本压缩成极少量的视觉 Token。模型的核心是编码器 DeepEncoder，它采用「先局部、再压缩、后全局」的三阶段设计：先用窗口注意力高效处理高分辨率图像的局部细节，再通过一个 16 倍卷积压缩器大幅减少 Token 数量，最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型，负责从这些视觉 Token 中重建出原始文字，从而实现了一种全新的文本压缩范式。这个方法的效率极为惊人。在 10 倍压缩率下，解码准确率高达 97%。在 OmniDocBench 基准上，它使用不到 800 个视觉 Token，就大幅超越了平均使用近 7000 个 Token 的 MinerU2.0，而一块 A100 显卡每天就能处理超过 20 万页数据。因此，这不仅是一个 SOTA 级别的 OCR 工具，还被认为是「AI 的 JPEG 时刻」，为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示，这也许证明了像素是比文本更好的输入方式，带来了更短的上下文窗口和更高的效率。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #文本压缩 #视觉token #AI效率提升 #上下文光学压缩

4个月前

DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR，专注于通过光学压缩技术高效处理长文本内容。模型参数仅3B，采用混合专家架构，视觉token数量减少20倍，压缩比达20倍，20个节点每天可处理3300万页数据。在Foxbenchmark测试中，各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力，可在多轮对话中实现10倍压缩效率。 DeepSeek-OCR的主要功能 1.视觉文本压缩：将长文本内容通过视觉模态进行高效压缩，实现7-20倍的压缩比。 2.多语言OCR：支持近100种语言的文档识别，包括中文、英文、阿拉伯文、僧伽罗文等。 3.深度解析：能解析图表、化学公式、几何图形等复杂内容。 4.多格式输出：支持带布局的Markdown格式和无布局的自由OCR格式。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #视觉文本压缩 #多语言OCR #图表解析 #3B模型

4个月前

[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM，参数规模 3B，核心目标是从 LLM 的视角探索视觉编码器的作用，并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”，目的是高效处理图像中的文本提取和文档结构化任务，适用于 OCR 和文档数字化场景。关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新： · 视觉-文本压缩机制：通过动态分辨率处理（如 Gundam 模式，将图像裁剪为多个 640×640 块加一个 1024×1024 中心块），将视觉输入压缩为少量 token（例如 Base 模式下 256 个视觉 token），减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码，更注重与 LLM 的无缝融合。 · 多模态提示支持：引入 grounding 提示（如“<|grounding|>”），允许模型针对性执行任务，如“Convert the document to markdown”用于结构化输出，或“Free OCR”用于纯文本提取。 · 训练策略：模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目，聚焦于文档、图表和弱视觉信号的处理，支持 32 种语言的 OCR（包括中文和英文）。这些创新使 DeepSeek-OCR 在处理复杂布局（如表格、图表）时表现出色，避免了传统 OCR 工具（如 Tesseract）的刚性限制。性能表现在基准测试中，DeepSeek-OCR 展现出高效性和准确性： · OCR 准确率：在 OCRBench 等数据集上，超越部分开源 VLM（如 Qwen-VL），尤其在手写体和低质量图像上表现稳健。 · 推理速度：使用 vLLM 引擎，在 A100-40G GPU 上处理 PDF 可达约 2500 token/s，支持并发批量评估。 · 分辨率适应：支持 Tiny（512×512）到 Large（1280×1280）模式，平衡精度与效率；在 OmniDocBench 等文档基准中，文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。它在资源受限环境下（如单 GPU）实现 SOTA（最先进）性能，但对极高分辨率图像的泛化仍需优化。使用与应用部署简单，支持 Hugging Face Transformers 和 vLLM： · 环境准备：Python 3.12+、CUDA 11.8、Torch 2.6.0，安装 flash-attn 和 vLLM。 · 应用场景：文档数字化（如 PDF 转 Markdown）、发票提取、学术论文图表解析。仓库提供可视化示例，展示从杂乱图像到结构化输出的效果。开源模型

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#开源模型 #DeepSeek-OCR #VLM #视觉-文本压缩 #文档数字化

4个月前

等不及 MLX 版的 DeepSeek-OCR了，折腾了会，把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型，还有视觉理解能力我试了 resize 512、640、padding 1024，Mac 走 CPU 还是 640 分辨率效果速度均衡些

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #Mac #CPU #视觉理解 #OCR模型

4个月前

DeepSeek 发布了一个新型 OCR文档理解模型：DeepSeek-OCR 它不仅解析图像文档达到了一流水平还探索出了一个大胆的想法👇🏻 大语言模型（比如 GPT）在处理长文章时，消耗的计算量会爆炸性增长。但如果把文字“画成图片”，模型只需要很少的“视觉 token”就能理解同样内容。这样做相当于给AI一个**“视觉记忆压缩”机制**。也就是：他们先把长文本压缩生成一张图片，用视觉模型将其压缩成只需少量“视觉 token”，然后再用语言模型从这些 token 解码出文字。换句话说，他们让模型“看图识字”来代替“逐字阅读”，把文字信息压缩进图像空间，从而实现大幅度的 token 减少。比如： 1000 个字的文章，压缩成图像只需用 100 个视觉 token（压缩 10×）表示，模型解压时候仍能还原出 97% 的原文。这就展示了一种**“视觉压缩记忆”**的概念： -未来的AI可以把旧记忆变成图片保存； -用更少的计算处理“几百页”的上下文； -这可能是解决“LLM记忆上限”的关键技术。他们将视觉压缩比拟为人类的“遗忘曲线”：也就是说：近期的上下文保留高分辨率图像（高保真信息）；较旧的上下文可被压缩为模糊图片（低信息密度）；这样既节约计算资源，又模拟了人类“遗忘”的自然过程。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #OCR文档理解 #视觉token #视觉记忆压缩 #LLM记忆上限

4个月前

DeepSeek开源DeepSeek-OCR OCR模型，效果比minerU 2.0略好（但是minerU已经有2.5版本了）模型：

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #DeepSeek-OCR #开源 #OCR模型 #MinerU