时政
财经
科技
虚拟货币
其他
登录
#DeepSeek-OCR
关注
meng shao
1小时前
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型
#开源模型
#DeepSeek-OCR
#VLM
#视觉-文本压缩
#文档数字化
分享
评论 0
0
nicekate
3小时前
等不及 MLX 版的 DeepSeek-OCR了,折腾了会,把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型,还有视觉理解能力 我试了 resize 512、640、padding 1024,Mac 走 CPU 还是 640 分辨率效果速度均衡些
#DeepSeek-OCR
#Mac
#CPU
#视觉理解
#OCR模型
分享
评论 0
0
小互
3小时前
DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅解析图像文档达到了一流水平 还探索出了一个大胆的想法👇🏻 大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。 但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。 这样做相当于给AI一个**“视觉记忆压缩”机制**。 也就是: 他们先把长文本压缩生成一张图片,用视觉模型将其压缩成只需少量“视觉 token”,然后再用语言模型从这些 token 解码出文字。 换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。 比如: 1000 个字的文章,压缩成图像只需用 100 个视觉 token(压缩 10×)表示,模型解压时候仍能还原出 97% 的原文。 这就展示了一种**“视觉压缩记忆”**的概念: -未来的AI可以把旧记忆变成图片保存; -用更少的计算处理“几百页”的上下文; -这可能是解决“LLM记忆上限”的关键技术。 他们将视觉压缩比拟为人类的“遗忘曲线”: 也就是说: 近期的上下文保留高分辨率图像(高保真信息); 较旧的上下文可被压缩为模糊图片(低信息密度); 这样既节约计算资源,又模拟了人类“遗忘”的自然过程。
#DeepSeek-OCR
#OCR文档理解
#视觉token
#视觉记忆压缩
#LLM记忆上限
分享
评论 0
0
Gorden Sun
8小时前
DeepSeek开源DeepSeek-OCR OCR模型,效果比minerU 2.0略好(但是minerU已经有2.5版本了) 模型:
#DeepSeek
#DeepSeek-OCR
#开源
#OCR模型
#MinerU
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞