2025-04-02 18:49:57
「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consistency、Tree of Thoughts 和 ReAct,本质上都体现了强化学习(RL)中常见的规划思想: Tree of Thoughts:如同下棋时,你脑海中会形成一个思考树,一步步推演未来可能的局面,从而找到最优解。这与RL中的树搜索(Tree Search)方法完全对应,体现了明显的模型化规划(Model-based Planning)特征。 ReAct(Reasoning+Acting,推理加行动):类似于你边思考边行动,不断尝试,再根据反馈调整下一步的计划。这种推理与行动的交替模式与RL中Agent持续地感知状态(Observing)、制定策略(Policy)、采取行动(Acting)并从环境中获得反馈(Feedback)非常类似。 为什么增强LLM的Reasoning通常要使用RL方法? 尽管LLM本身已经具备强大的知识和生成能力,但它们本质上是基于“下一个词预测”的机制(Next-Word Prediction),缺乏深度的Planning能力和对未来结果的有效预测。这就像一个聪明但缺乏系统训练的人,虽然懂得很多知识,但在面对复杂决策时容易陷入短视和错误。 RL方法的加入,就像给LLM提供了一种“内心世界模型”(Internal World Model),帮助模型进行更好的内部规划: RL能帮助LLM学会评估和预测不同推理路径的可能结果,从而选择更优的路径,恰如DeepSeek R1, Kimi, o1的方法。 立一个FLAG, 把这些RL方法一个个用人话讲明白。
2025-04-02 18:49:57