时政
财经
科技
虚拟货币
其他
登录
#视觉token
关注
ginobefun
1个月前
刚集中看了下 DeepSeek-OCR 模型的论文和报导,发现这个模型名字虽然叫 OCR,但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时,计算量会随文本长度平方级增长,成本极高。 DeepSeek 的思路是跳出这个困局,不再让 AI 逐字「阅读」一维文本,而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式,利用一图胜千言的原理,将海量文本压缩成极少量的视觉 Token。 模型的核心是编码器 DeepEncoder,它采用「先局部、再压缩、后全局」的三阶段设计:先用窗口注意力高效处理高分辨率图像的局部细节,再通过一个 16 倍卷积压缩器大幅减少 Token 数量,最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型,负责从这些视觉 Token 中重建出原始文字,从而实现了一种全新的文本压缩范式。 这个方法的效率极为惊人。在 10 倍压缩率下,解码准确率高达 97%。在 OmniDocBench 基准上,它使用不到 800 个视觉 Token,就大幅超越了平均使用近 7000 个 Token 的 MinerU2.0,而一块 A100 显卡每天就能处理超过 20 万页数据。 因此,这不仅是一个 SOTA 级别的 OCR 工具,还被认为是「AI 的 JPEG 时刻」,为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示,这也许证明了像素是比文本更好的输入方式,带来了更短的上下文窗口和更高的效率。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-OCR
#文本压缩
#视觉token
#AI效率提升
#上下文光学压缩
分享
评论 0
0
小互
1个月前
DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅解析图像文档达到了一流水平 还探索出了一个大胆的想法👇🏻 大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。 但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。 这样做相当于给AI一个**“视觉记忆压缩”机制**。 也就是: 他们先把长文本压缩生成一张图片,用视觉模型将其压缩成只需少量“视觉 token”,然后再用语言模型从这些 token 解码出文字。 换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。 比如: 1000 个字的文章,压缩成图像只需用 100 个视觉 token(压缩 10×)表示,模型解压时候仍能还原出 97% 的原文。 这就展示了一种**“视觉压缩记忆”**的概念: -未来的AI可以把旧记忆变成图片保存; -用更少的计算处理“几百页”的上下文; -这可能是解决“LLM记忆上限”的关键技术。 他们将视觉压缩比拟为人类的“遗忘曲线”: 也就是说: 近期的上下文保留高分辨率图像(高保真信息); 较旧的上下文可被压缩为模糊图片(低信息密度); 这样既节约计算资源,又模拟了人类“遗忘”的自然过程。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-OCR
#OCR文档理解
#视觉token
#视觉记忆压缩
#LLM记忆上限
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞