meng shao 0 关注者 关注 1个月前 Andrej Karpathy 最新观点:强化学习很强,但不是终极答案 Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。这就是所谓的“verifie 前往原网页查看