𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 5个月前 最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循? 啊哈哈,LLM的生成最终只是语言结构的复制!其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括: 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知,贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度” #虚假奖励函数 #RLVL #训练效果 #LLM #语言结构 #智能评估 #价值投射 #语言模型 #生成输出 #贪婪解码 #评估透明度 前往原网页查看