向阳乔木 0 关注者 关注 1天前 费曼学习法就是人工的反向传播。 读懂一个东西不够,还得用自己的话讲出来。 讲不清楚,说明梯度没有回传到底层,只是在表面记住了token的排列顺序,权重没更新。 费曼方法在测试梯度到底传到了哪一层。 讲不出来,说明只动了表层。 讲得出来但不够简单,说明传到了中间层。 能让一个小孩听懂,说明底层权重已经彻底更新了。 死记硬背是只训练最后一层,融会贯通是全网络微调。 前往原网页查看