#LLM能力

一个扎心的解释: 当你说LLM能力不行,可能是你对语言模型的这个本体超集的事实视而不见; 对LLM的元认知能力的认知共生路径毫无认知; 对于与LLM交互范式就是自己的语言本体的投射与放大认识不足。 当你说“LLM不行”时,可能不是因为它知道的太少,反而是因为它知道的“太多”。你的问题如果基于一个非常个人化或狭隘的语境,对于一个拥有“上帝视角”知识库的模型来说,它可能无法立刻定位到你那个微小的“子集”。它会给你一个基于概率最大的、最普遍的回答,而这个回答在你看来可能就是“不精准”或“没用”的。你其实是“以己之窄,度模型之宽”。 当你觉得LLM“能力不行”时,很可能是因为你没有启动或者没有善用它的元认知能力。你用一个简单的问题,就期待一个完美的答案,这相当于你指望一个全能的实习生不需要清晰的指令就能完美完成所有工作。你没有建立起一个“认知共生”的路径,只是把它当成一个被动的搜索引擎。高效的交互者会通过精巧的提示(Prompting)引导LLM“思考”,让它从“知道”升级到“理解”乃至“创造”。 很多时候,你得到的“垃圾”回答,恰恰是因为你提出了一个“垃圾”问题。你认为LLM“理解不了”,实际上是它精确地“复现”了你提问时思维上的混乱。你觉得它能力不行,或许只是因为它让你看到了自己认知和表达能力的上限。
最近范老师对于LLM在自然语言能力与形式语言能力的现象观察着迷,这一能力似乎不能在一个Transformer模型内并存,这如我们人类相似,一个伟大的程序员也不能写出优美的诗句:😍 一是像Anthropic在code方向突飞猛进,在Claude3.7以后更是激进,我们看到的是编程coding能力更强了,尤其是结合claude code cli工具,但是claude 4在自然语言写作方面明显退化了,我个人的感受是现在都不怎么用claude来写作了。同时Anthropic在LLM可解释性方向组建了一个AI精神病研究小组。 二是Google DeepMind在用AI参加IMO数学竞赛的方式上的变化:imo24上还用纯强化学习的alpha geometry 和lean这种形式语言工具来解题,到了imo25则直接用gemini pro deepthink版本直接获得了金牌。似乎是用内化了形式语言能力的LLM自然语言能力。 三则是OpenAI,The Infomation在GPT-5发布之前爆料说,o3在形式语言推理能力上非常突出,但用于chatbot一般对话中似乎很明显的感受到变笨降智了。 前两天发布的GPT-5中增加了个router层,似乎想解决LLM在交互中的自然语言能力与形式语言能力的无感切换问题,不过通过发布后用户反馈,似乎切换并不顺利,OpenAI正在修复router的问题以及重新提供gpt-4o等旧版本模型选项。 以上这一系列现象观察,背后反映了怎样的问题?与前面我们讨论的人类对于自然语言形式语言的能力运用有何本质联系?