4个月前

既然RL有reward hacking(奖励投机)的风险,提示词工程是不是更好的方法呢? 答案是:它们不是相互替代的关系,而是两种有着不同目标、成本和适用场景的工具。没有绝对的“更好”,只有“更适合”。 那么问题来了:是应该投入更多精力去“教”(通过微调/RL)模型,还是去“引导”(通过提示词工程)模型? 1. 为什么奥数论文用提示词工程? 因为奥林匹克数学竞赛(IMO)的问题极其困难、开