马东锡 NLP 🇸🇪

马东锡 NLP 🇸🇪

0 关注者

10个月前

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned d

#RLVR #SpuriousRewards #DeepLearning #reasoning #TrainingSignals #MachineLearning #ModelPerformance

相关新闻

placeholder

Xiaowen

1周前

27b 是个好模型,但速度不适合本地运行了。 35b a3b 虽然效果也不差,但首先是通过拉长 reasoning 来确保输出范围合理性的,虽然速度快,但总的效率并不太高,等的太久了。

placeholder

Hanya Hu

2周前

🧠 AI 开始「自学」了!USC 研究人员发现,GPT-5 通过编译器反馈循环,在几乎零训练数据的 Idris 语言上,成功率从 39% 飙升至 96%! 「AI 工具正在超越初始训练数据的限制。」— USC 教授 Krishnamachari 这意味着:AI 的能力边界正在被重新定义 🚀 #AI #MachineLearning #GPT5 #Research

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4个月前

reasoning的reasoning — reasoning pattern 越来越多的研究关注LLM的元能力二阶能力了

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

5个月前

reasoning as a core capability 约等于 cognitive core? jakub: we're focusing less on version numbers now. GPT-5 introduces reasoning as a core capability, and we're decoupling product releases from resea

placeholder

Tom Huang

9个月前

最权威的 MCP 课程来了💥 国家队下场教你构建富上下文的 AI 应用⚡️ Anthropic 与 吴恩达的 DeepLearning 正式合作课程发布! 学习如何使用 MCP,整合各种数据源如 Google Drive,Notion 等综合回答问题

© 2025 news.news. All rights reserved. 0.03203 秒. v1.0.46
我的评论