0 关注者

1天前

书籍、文章、播客都只是大脑的训练语料。大模型不因为读完了整个互联网而变得聪明，而是因为在海量token中涌现了注意力的远程依赖。人也一样：一本书翻到第三页就放下，没关系。但如果那三页，让你大脑里两个从未对话的区域突然通了电。这就是一次有效的参数更新，也就是我们的学习收获。

热门新闻