#视觉记忆压缩

6小时前

DeepSeek 发布了一个新型 OCR文档理解模型：DeepSeek-OCR 它不仅解析图像文档达到了一流水平还探索出了一个大胆的想法👇🏻 大语言模型（比如 GPT）在处理长文章时，消耗的计算量会爆炸性增长。但如果把文字“画成图片”，模型只需要很少的“视觉 token”就能理解同样内容。这样做相当于给AI一个**“视觉记忆压缩”机制**。也就是：他们先把长文本压缩生成一张图片，用视觉模型将其压缩成只需少量“视觉 token”，然后再用语言模型从这些 token 解码出文字。换句话说，他们让模型“看图识字”来代替“逐字阅读”，把文字信息压缩进图像空间，从而实现大幅度的 token 减少。比如： 1000 个字的文章，压缩成图像只需用 100 个视觉 token（压缩 10×）表示，模型解压时候仍能还原出 97% 的原文。这就展示了一种**“视觉压缩记忆”**的概念： -未来的AI可以把旧记忆变成图片保存； -用更少的计算处理“几百页”的上下文； -这可能是解决“LLM记忆上限”的关键技术。他们将视觉压缩比拟为人类的“遗忘曲线”：也就是说：近期的上下文保留高分辨率图像（高保真信息）；较旧的上下文可被压缩为模糊图片（低信息密度）；这样既节约计算资源，又模拟了人类“遗忘”的自然过程。

#DeepSeek-OCR #OCR文档理解 #视觉token #视觉记忆压缩 #LLM记忆上限