#tokenizer

AI进化论-花生

3个月前

Andrej Karpathy提出了一个很激进的想法：所有LLM的输入都应该是图像，包括纯文本。什么意思？传统的大语言模型：文本 → tokenizer → LLM → 输出 Andrej的vision：文本 → 渲染成图片 → LLM → 输出即使你要输入的就是纯文本，也先把它渲染成图片，再喂给模型。为什么这么做？他给了4个理由： 1. 信息压缩更高效这正是DeepSeek-OCR证明的。一页文档，传统方式可能需要2000个text tokens，用vision tokens只要64个。压缩率30倍。文本tokens很浪费，图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字： - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像全部渲染成图像输入，模型天然就能处理这些。 3. 可以用双向注意力这是技术细节。传统的text-to-text是自回归的（从左到右）。图像输入可以用双向注意力，看到全局信息，更强大。 4. 删除tokenizer（重点！） Andrej很讨厌tokenizer。他的吐槽： - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险（如continuation bytes攻击） - 两个看起来一样的字符，在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token，不是一张真正的笑脸图片他希望tokenizer消失。他的vision是什么 - 输入：全部是图像（即使原本是文本） - 输出：还是文本（因为输出像素不现实） OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。我的理解 Andrej这个观点很激进，但确实有道理。从信息论角度，图像确实比文本更高效。DeepSeek-OCR证明了这一点：64个vision tokens就能表达2000个文本tokens的信息。从通用性角度，图像输入天然支持各种格式（粗体、颜色、图表），不需要tokenizer这个中间层。但问题是： 1. 计算成本：处理vision tokens比text tokens贵。虽然token数量少了，但每个vision token的计算量更大。 2. 训练数据：现有的大部分训练数据都是纯文本。要全部渲染成图像，成本很高。 3. 输出问题：他也承认，输出像素不现实。所以只能是图像输入→文本输出的混合模式。但长远看，这个方向可能是对的。特别是考虑到： - 人类的输入本来就是多模态的（文字、图片、视频） - Tokenizer确实有很多问题（安全、Unicode、历史包袱） - 未来的AI应该能直接理解像素，而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来：一个没有tokenizer的世界，所有输入都是图像，所有输出都是文本。这会不会成为现实？不知道。但至少，这个方向值得探索。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#LLM #图像输入 #tokenizer #Andrej Karpathy #多模态