2025-04-14 04:26:54
更强的reasoning, 更好的Agent 论文分享: Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候,需要 更好的LLM reasoning的能力,以获得更高的任务完成准确率。 那么有哪些方法可以增强LLM的reasoning能力呢? 沿着之前我分享的Testing time scaling的轨迹,这篇论文的部分内容对于增强Large Reasoning Model的策略非常有参考价值: 反馈引导优化(Feedback Guided Improvement) 步骤反馈(Step-Feedback, SF):逐步评分,仅保留最佳路径(如Beam Search/MCTS) 结果反馈(Outcome-Feedback, OF):生成多条结果整体评分,择优输出 计算资源扩展(Scaling Test-Time Computation) 提高单词级计算(Scaling Token-Level Compute):如best-of-N sampling 自反馈优化(Self-Feedback):模型自我优化,无需再训练(非Self-Teaching)
2025-04-12 10:36:23
2025-04-02 18:49:57