向阳乔木 0 关注者 关注 1天前 书籍、文章、播客都只是大脑的训练语料。 大模型不因为读完了整个互联网而变得聪明,而是因为在海量token中涌现了注意力的远程依赖。 人也一样:一本书翻到第三页就放下,没关系。 但如果那三页,让你大脑里两个从未对话的区域突然通了电。 这就是一次有效的参数更新,也就是我们的学习收获。 前往原网页查看