#评估透明度

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

9个月前

最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循？啊哈哈，LLM的生成最终只是语言结构的复制！其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括： 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知，贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度”

#虚假奖励函数 #RLVL #训练效果 #LLM #语言结构 #智能评估 #价值投射 #语言模型 #生成输出 #贪婪解码 #评估透明度