结合最近强化学习之父Sutton提到LLM is a dead end和硅谷AI好老师Andrej Karpathy在访谈提到RL is terrible；让我不禁想起在LLM的训练范式中，RL可能并不适合LLM这种纯符号计算，Sutton的担心是悬浮的符号计算会走向何方？Karpathy离职从事AI教育志向在于探索LLM的cognitive core如何为AI时代的人类所用。 LLM的"世

#LLM #强化学习 #Sutton #Karpathy #符号计算

相关新闻

Sanbu

2天前

是不是觉得 karpathy 的 autoresearch 很酷？又看到一个类似的自动化工具：ArgusBot。本质是一个 7*24 小时循环迭代任务的科研执行系统。它可以让任务持续进行，实时汇报进展、接受指令。我自己平时做科研/工程时，经常会遇到需要反复盯进度的问题，有了这个方便很多。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2天前

Mario的项目是language agent的kernel，其背后的LLM类似Linux运行的计算机环境，这和Linus开发linux kernel类似 openclaw只是其中一个发行版而已，正如ubuntu 希望玩kernel hack的geek们有福了…

Jasmine

3天前

两年前，我拉了个 AI 群。群里主要是几乎所有华人AI项目创始人，基金机构，研究员，大家分享内幕，组队干项目。那会儿应该是国内最早的Agent狂欢前夜。后来周期来了。有人赚翻，有人忙于build，有人对AI少了热情，我决定解散群，去想我要做的群到底是为了什么目的。但今天，#AgenticAI 真正要爆发了。这波机会比2023年的LLM热潮更大、更快、更卷。我决定重启。全新

Mr Panda

4天前

opus 4.5 、codex 5.3 这两个模型，给我最大的体验就是反思能力增强。之前的模型会无脑的执行你的命令，在一次性处理的任务，表现在特别好。但在是如果我的命令不合理，存在与之前的业务逻辑矛盾的时候，之前的模型不会反思、也不会提醒我。这两个模型在反思能力表现上，非常的突出，不知道是不是强化学习的功劳。

nash_su - e/acc

5天前

提升240倍！😱 AI 连续工作1天2夜帮我把一个算法模型准确度提高了240倍，这太震撼了！前天下午，我用karpathy 大神的 autoresearch 的思路，编写了一个 program.md 文档，在一个GTX4090单卡机器上，让 Claude Code 按照文档要求帮我优化一个AI预测模型。当天就提升了24%，但是后续一直没有明显进步，直到昨晚，我用 /btw 给他说要大胆一