时政
财经
科技
虚拟货币
其他
登录
#视觉记忆压缩
关注
小互
6小时前
DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅解析图像文档达到了一流水平 还探索出了一个大胆的想法👇🏻 大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。 但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。 这样做相当于给AI一个**“视觉记忆压缩”机制**。 也就是: 他们先把长文本压缩生成一张图片,用视觉模型将其压缩成只需少量“视觉 token”,然后再用语言模型从这些 token 解码出文字。 换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。 比如: 1000 个字的文章,压缩成图像只需用 100 个视觉 token(压缩 10×)表示,模型解压时候仍能还原出 97% 的原文。 这就展示了一种**“视觉压缩记忆”**的概念: -未来的AI可以把旧记忆变成图片保存; -用更少的计算处理“几百页”的上下文; -这可能是解决“LLM记忆上限”的关键技术。 他们将视觉压缩比拟为人类的“遗忘曲线”: 也就是说: 近期的上下文保留高分辨率图像(高保真信息); 较旧的上下文可被压缩为模糊图片(低信息密度); 这样既节约计算资源,又模拟了人类“遗忘”的自然过程。
#DeepSeek-OCR
#OCR文档理解
#视觉token
#视觉记忆压缩
#LLM记忆上限
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞