$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

0 关注者

7个月前

既然RL有reward hacking（奖励投机）的风险，提示词工程是不是更好的方法呢？答案是：它们不是相互替代的关系，而是两种有着不同目标、成本和适用场景的工具。没有绝对的“更好”，只有“更适合”。那么问题来了：是应该投入更多精力去“教”（通过微调/RL）模型，还是去“引导”（通过提示词工程）模型？ 1. 为什么奥数论文用提示词工程？因为奥林匹克数学竞赛（IMO）的问题极其困难、开

热门新闻