最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循? 啊哈哈,LLM的生成最终只是语言结构的复制!其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括: 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知,贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度” - x - news.news