最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循？啊哈哈，LLM的生成最终只是语言结构的复制！其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括： 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知，贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度”

#虚假奖励函数 #RLVL #训练效果 #LLM #语言结构 #智能评估 #价值投射 #语言模型 #生成输出 #贪婪解码 #评估透明度

相关新闻

howie.serious

2个月前

gemini 最佳实践：if 深度思考，then 信息图总结。每次和 gemini 聊完一个话题，如果是多轮的层层深入的对话，最后有所收获的话，那就多走一步：选择 nano 🍌， > 基于我们前面的对话，画一张信息图，整理核心观点例如，刚才和 ai 聊 llm 强化学习对于父母的启发。语言是模糊的，思想是在多轮对话中逐渐清晰的，和 llm 多轮对话当然是有启发的，但多了信息图总结这一步，

howie.serious

2个月前

chatgpt 以来，发展了三年的LLM，提供的早已不止是情绪价值。我在2025跨年对谈时就明确认为，2025年，使用ai的关键，是向 ai “要价值”！要直接的、经济的价值！ 2025年的发展，基本上验证了我的判断。本周的ai专题直播，一起聊一聊这三年，这三年的ai学习、应用。欢迎预约直播，本周五直播间见。预约方式：（不知不觉，发现 2025 年已经做了 20 场 ai 专题

素人极客-Amateur Geek

2个月前

今天重新思考了语言的功能， LLM可能会变成我们语言效率变革的一个工具。未来语言可能变成一种文化而存在，作为工作来讲，效率语言可能很快会出现。出现的前提：语言表达经过LLM后可以实现100%正确性

Larry & Leo Bro - Eagle of Full Stack

2个月前

为什么 GPT 这么喜欢说 “捶死”？这都是哪儿学的中文？

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

Ilya重新定义了AGI，Pre-Training gives AGI！我的理解是LLM操纵语言的能力给了人AGI的幻觉，这是hype，带来了泡沫！当前GenAI，在符号空间无人能敌，然后却在人的现实世界里符号落地困难重重！