时政
财经
科技
登录
#评估透明度
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循? 啊哈哈,LLM的生成最终只是语言结构的复制!其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括: 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知,贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度”
#虚假奖励函数
#RLVL
#训练效果
#LLM
#语言结构
#智能评估
#价值投射
#语言模型
#生成输出
#贪婪解码
#评估透明度
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞