最近三天又在疯狂用AI编程工具,每天使用时间大概都在12小时以上,大幅度迭代了2个产品,开发完了一个接近上万行代码的app。对现在AI编程产品和模型的状态有了些新感受。 1、Claude Opus 4.5依然是最好的模型,从前到后全方面地稳定和强,在Claude Code内和Cursor内都是够好用的; 2、OpenAI Codex的情况有些特殊,内置的gpt-5.2-codex模型选high及以上的思考模式时,后端开发能力巨好,能跑的时间无比长,经常能一个任务跑一个多小时,然后完全没有bug的。但是速度也是真的慢,思考的时间有点过久了,以及审美是真的差,所以不适合用来做前端以及聊功能和对话的; 3、同样用Opus 4.5的话,在Claude Code里用比在Cursor里用划算多了,Cursor跑Opus 4.5很容易跑一个项目就用费整个月的用量; 4、Codex的上下文工程优化比Claude Code好不少,会很好地进行自动化地compact,所以基本上可以在一个窗口下不停布置任务,不用担心任务间干扰或者上下文撑爆,能更沉浸地vibe coding,Claude code更适合每个独立任务都新开窗口执行; 5、多项目任务下,在Cursor内开多个终端,分别执行C laude Code和CodeX没问题,我有过同时跑5个不同任务,相互没造成任何干扰的情况,前提是任务之间各自做的内容比较独立; 6、glm-4.7也还挺不错的,肯定不如前面说的几个,但是也能连续执行一个小时以上的任务,而且它在Claude code中也能管理多个子agent执行任务。在这个情况下,很多批量写作之类的任务你甚至不需要写脚本调用API,让glm-4.7+cc去调用子agent批量执行即可,很省事。
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 3. 可以用双向注意力 这是技术细节。传统的text-to-text是自回归的(从左到右)。图像输入可以用双向注意力,看到全局信息,更强大。 4. 删除tokenizer(重点!) Andrej很讨厌tokenizer。 他的吐槽: - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险(如continuation bytes攻击) - 两个看起来一样的字符,在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token,不是一张真正的笑脸图片 他希望tokenizer消失。 他的vision是什么 - 输入:全部是图像(即使原本是文本) - 输出:还是文本(因为输出像素不现实) OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。 我的理解 Andrej这个观点很激进,但确实有道理。 从信息论角度,图像确实比文本更高效。DeepSeek-OCR证明了这一点:64个vision tokens就能表达2000个文本tokens的信息。 从通用性角度,图像输入天然支持各种格式(粗体、颜色、图表),不需要tokenizer这个中间层。 但问题是: 1. 计算成本:处理vision tokens比text tokens贵。虽然token数量少了,但每个vision token的计算量更大。 2. 训练数据:现有的大部分训练数据都是纯文本。要全部渲染成图像,成本很高。 3. 输出问题:他也承认,输出像素不现实。所以只能是图像输入→文本输出的混合模式。 但长远看,这个方向可能是对的。 特别是考虑到: - 人类的输入本来就是多模态的(文字、图片、视频) - Tokenizer确实有很多问题(安全、Unicode、历史包袱) - 未来的AI应该能直接理解像素,而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来:一个没有tokenizer的世界,所有输入都是图像,所有输出都是文本。 这会不会成为现实?不知道。 但至少,这个方向值得探索。