Herrington Darkholme

Herrington Darkholme

0 关注者

1年前

rule based reward model also means their training target would be limited to domains with ground truth. It is interesting how they can extend to questions with ambiguous, but comparable, answers

#RuleBasedAI #RewardModel #MachineLearning #ambiguity #GroundTruth

相关新闻

placeholder

Hanya Hu

3周前

🧠 AI 开始「自学」了!USC 研究人员发现,GPT-5 通过编译器反馈循环,在几乎零训练数据的 Idris 语言上,成功率从 39% 飙升至 96%! 「AI 工具正在超越初始训练数据的限制。」— USC 教授 Krishnamachari 这意味着:AI 的能力边界正在被重新定义 🚀 #AI #MachineLearning #GPT5 #Research

placeholder

马东锡 NLP 🇸🇪

10个月前

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned d

placeholder

马东锡 NLP 🇸🇪

11个月前

「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(

placeholder

NO CONTEXT HUMANS

1年前

I’m not saying you should, but I’m also not saying you shouldn’t

placeholder
placeholder

NO CONTEXT HUMANS

1年前

Me too machine, me too.

placeholder
© 2025 news.news. All rights reserved. 0.05141 秒. v1.0.46
我的评论