马东锡 NLP 🇸🇪2025-04-09 03:42:53「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transforme
马东锡 NLP 🇸🇪2025-03-29 04:10:35「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的