#工程化产品化

WY
1周前
DeepSeek刚发的OCR模型有点小火,一方面是突出的性能,号称压缩10倍还有97%准确率,另一方面关于用分辨率来模拟遗忘机制的假想,恰巧AK在最近的访谈中说人的遗忘是一个feature而不是bug。 DeepSeek OCR模型很有意思的一点是提供了好多个“分辨率”选项,并且看起来用的token很少。最低的512 x 512一张图只需要64个token,稍大一点的1024 x 1024是256个token。复杂版面还组合使用多种分辨率,首先是整张图用i个1024 x 1024,此外重点区域可能用多个640 x 640。 不少人惊呼太牛逼了,一张图只需要几十个token。其实至少在学术界,这样的视觉编码效率并不算很大的突破。 目前看不到技术细节,但DeepSeek OCR的搞法,怎么看怎么像去年字节的那篇best paper的思路(还记得去年字节有个实习生搞破坏被公司索赔800万吗,他就是paper的作者)。那篇paper是去年顶会NeurIPS的best paper,提出的Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。 另外,去年豆包团队也有一篇paper,把512 x 512的图片也是编码到了64个token,和DeepSeek OCR一模一样。那篇paper还能把256 x 256的图片编码到更小的32个token。DeepSeek OCR模型毕竟是要做文字识别而不是场景理解的,可能因此舍去了不太实用的256 x 256尺寸。 很有可能DeepSeek OCR是受到了这两篇paper很大的启发,把它进一步工程化产品化了。从过往的记录看,DeepSeek团队特别把其它实验室的研究成果进一步做扎实,产品化。 至于用分辨率来模拟遗忘机制的假想,确实是个有点意思的想法,但也感觉有点不太对。越来越模糊的分辨率,感觉模拟的更像是越来越高度的近视,这是一种很好的遗忘机制吗? 另外,人脑的遗忘机制可能适合人脑,未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限,数字系统容量可以一直扩,是不是一定要遗忘呢。 这些都是问题。这得多想想。