马东锡 NLP 🇸🇪2025-04-09 03:42:53「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transforme
-Zho-2025-04-09 00:22:22这个方法重要啊!生成一致性更好的长视频,解决长视频上下文难题!Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频(自注意力机制在处理长上下文时的低效所导致),研究提出了新的 Test-Time Training 层,其隐藏状态本身可以是神经网络,因此比传统层更具表现力,从而实现更具一致性、自然度和美感的长视频生成 项目页(视频来自此):
AIGCLINK2025-03-29 16:54:06这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开
杀马特副教授2025-03-19 13:36:57最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。 先不说这个比喻合不合理,其实这个比喻的背后有个更根本的问题:“谁有资格拥有核武器”? deepseek的模型是开源的,但是训练模型的方法并没有全部开源,到目前为止,利用deepseek提供的思路训练出来的大模型比如QWen QWQ,能够思考,“有点意思”,但是又“差点意思”。 不过客观的说,现在基于transformer le
岁静小能手2025-02-11 11:43:44目前不建议购买50系任何显卡,不光溢价严重,更有变砖可能。有人说商家是故意搞饥饿营销多挣钱,实际上放开了卖比几万人抢一张5090更赚钱。唯一原因是50系硬件或驱动存在漏洞缺陷,各厂商为避免大规模返修只能按货不发,为减少经济损失只能提高40系50系售价和降低50系出货,等三月初价格应该回归正常。