#模型

「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并未真正验证推理的实质。 这篇论文,简直就是把当前 LLM 推理潮流一锅端,按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问: 1: Large Reasoning Model 是在推理还是在检索? 作者认为,LRM 并非真正“推理”,它们的行为更像经过训练强化的“近似检索”系统。 所谓“推理”,往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。 如果模型生成的候选解中压根就没有一个是对的,也就无法进行强化训练。 这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”? 作者认为,CoT,(如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述)并不能证明模型真的在“思考”,它们很可能只是模仿人类风格的产物——大型模仿模型(Large Mumbling Models, LMMs)。😂 例如,CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确,哪怕是乱码也无所吊谓。 最后,此片论文同样是对test time scaling的犀利审视,test time scaling本质是把原本在“测试时”才能验证的东西,提前“编译”进了模型的生成过程中。 换句话说,模型不是学会了推理,而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。 按照作者的思路,当下post training的套路如下: - 测试阶段:拼命尝试多个答案 - 筛选阶段:用外部验证器选出对的那个 - 训练阶段:把这套套路“硬塞回生成器”,形成“像在思考的样子” 所以它不是真的学会了推理,而是学会了:如何让自己看起来像在推理,并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!
3个月前
实际应用中,发现AI的大多数初期使用者,真的是一个模型用到地老天荒,而且是默认第一个是什么就一直是它了。 逐步掌握利用不同的模型在一个(或者多个)上下文中协同工作,是利用AI完成复杂任务的良好开始,这个往往比写出高质量的提示词更重要。 比如,初期的思路整理阶段,使用4o mini、claude 3.5、gemini lite就足够了,在时间和成本方面特别友好。当需要深入的时候,不妨将工作拆解成几个子任务,分别使用不同的模型加以处理,比如生成图片部分,完全就可以只使用mini类来加载,基本不会影响出图效果。对于较为复杂的任务,比如需要严格事实验证的、带有算法的编码,就可以考虑使用o1 pro、geimini 2.5、claude 3.7这一类推理模型。 如果需要编写较为复杂的文档,可以试试以下步骤: 1. 如果对主题要求很高,可以一上来就用o1 pro这类高级推理模型协助拟定备选主题,比如中心思想、写作风格、段落划分等。 2. 用4o等模型为文章提炼大纲,如果需要模型生成较长篇幅的文章,细化大纲是一个很有用的手段,可以逐级细化,实际中基本上大纲越细,可以产生的篇幅越长。 3. 继续使用中级模型生成正文,写作类内容,推理模型似乎没有明显的优势,4.5、4o、sonnet3.5、gemini 2足够了。 4. 文笔类的润色,可以考虑mini类的模型,速度很快,在已有原文的基础上,mini类模型也可以准确定位需要修改的内容。 5. 最后可以让模型将文章转化为特定的格式,比如html,原始格式不是很友好。现在有了强大的生图能力,也可以考虑直接转化为图片。 可以试试每一步都用最简洁的提示词,哪怕先写一个复杂的,在花点儿时间精简提示词。要点明确又富有弹性的提示词,不仅可以节省时间,也可以在最低消耗的情况下获取直接的反馈。 如果有一天,真的要2万美金一个月才能使用某些模型的时候,善于利用不同模型,编写高效简洁的提示词,真的就是必备技能。
4个月前
画的最清楚的 OpenAI 路线图 这是 LinkedIn 上博主 Peter Gostev 画的图(原始地址 ),很清晰明了。下面是相关文字说明。 逐步统一的 GPT-5 模型 OpenAI 罕见地分享了他们关于统一 GPT-5 模型的路线图。主要要点如下: - GPT-4.5 将在“数周内”推出,这是他们最后一个非推理类模型(类似 GPT-4o)。 - o3 不会作为独立模型发布。 - 取而代之的是,他们将在“数月内”推出 GPT-5,它将融合 o3 和 GPT-4.5。 - GPT-5 将成为一个能够使用所有工具(如语音、搜索、Canvas、深度研究等)的系统——它可以自动决定该使用什么工具以及使用多高程度的推理。 - 这将同时适用于 ChatGPT 和 API。 - 在 ChatGPT 中,免费用户将获得 GPT-5 的无限使用权限。 - Plus 用户将获得更高水平的智能,Pro 用户则会更高。 这真的感觉像是一个时代的终结。我很好奇他们会如何实现这一点。我希望这不会让他们的研发放慢脚步,因为我听 OpenAI 的团队成员说过,他们可以为新特性(比如 Canvas)训练自己版本的模型,然后再把它集成回去。我希望他们能完善系统的“智能路由”部分,因为到目前为止,对于是否自动选择使用哪些工具,系统做出的决策时好时坏。 我对 o3 无法推出感到遗憾,看起来它会是一个非常了不起的模型,尤其是 o3-pro 可能会非常惊艳。 我也有点担心将来 API 的样子。现在从非常便宜到非常昂贵都有各种不同的模型可供选择。我希望他们所计划的无论多么强大,都能保持便宜且快速,同时也能超级智能。