Mathew Shen

Mathew Shen

0 关注者

7个月前

折腾了快一周,终于磕磕绊绊地把Transformer复现了一遍。现在的感觉是,Transformer的构造绝对是天才+汗水的产物。无论是理论上还是工程上都具有划时代意义。(虽然现在这么说有点马后炮了)

#transformer #复现 #磕磕绊绊 #天才 #汗水

相关新闻

placeholder

张发财

3天前

陶斯亮说陶铸其实没读过几天书,马列理论也狗屁不通,偏偏爱装逼,喜欢舞文弄墨。党内秀才瞧不起他也就罢了。主席也看不上他——你个丘八不务正业装你妈文化人。接着陶斯亮夸主席,太厉害了!她那个傻爹至死都没明白收拾他的就是主席,弥留之际还愧疚表示自己辜负了主席!主席是不是天才?!

placeholder

iPaul

1周前

什么是顶级聪明人?

placeholder

Gorden Sun

1周前

Mamba-3:新一代Memba架构 Mamba-2从训练场景出发,为训练速度做了大量简化;Mamba-3从推理场景出发,在不增加推理延迟的前提下显著提升模型质量。Mamba与Transformer混合使用效果优于纯模型,未来还是以混合使用为主。 博客:

placeholder

Gorden Sun

2周前

在Transformer内部造一台计算机 一篇充满争议的文章,Percepta AI把WebAssembly解释器编译进Transformer权重,让模型的前向传播本身就是程序执行,不依赖任何外部工具就能进行数学计算。 流程是:C代码→WASM→将WASM解释器编码进权重→前向传播逐token输出执行轨迹 争议的点在于:权重不是训练出来的,而是直接编译进去的,更像“用一种奇特方式写了个程序”,不是

placeholder

利维坦冲浪里

2周前

天才

© 2025 news.news. All rights reserved. 0.08546 秒. v1.0.46
我的评论