马东锡 NLP 🇸🇪2025-04-09 03:42:53「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transforme#预训练#推理#论文
-Zho-2025-04-09 00:22:22这个方法重要啊!生成一致性更好的长视频,解决长视频上下文难题!Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频(自注意力机制在处理长上下文时的低效所导致),研究提出了新的 Test-Time Training 层,其隐藏状态本身可以是神经网络,因此比传统层更具表现力,从而实现更具一致性、自然度和美感的长视频生成 项目页(视频来自此): #长视频#transformer#自注意力机制
AIGCLINK2025-03-29 16:54:06这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开#朱啸虎#具身智能#AI1.0
杀马特副教授2025-03-19 13:36:57最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。 先不说这个比喻合不合理,其实这个比喻的背后有个更根本的问题:“谁有资格拥有核武器”? deepseek的模型是开源的,但是训练模型的方法并没有全部开源,到目前为止,利用deepseek提供的思路训练出来的大模型比如QWen QWQ,能够思考,“有点意思”,但是又“差点意思”。 不过客观的说,现在基于transformer le#辛顿#核武器#DeepSeek
大希沙织2025-01-12 21:42:48这次的NV也是大失所望 还在玩5070(+dlss4)=4090(gaming)这种低级文字游戏,cuda数2w的5090比4090快30%这不是废话吗?功耗也涨了40%,结果是性能倒吸 最关键的是2000刀的显卡居然只给了32G显存,现在二手A100都只要2500了 整个发布会就只有DLSS4能看,还是50系专属,40系是跑不动transformer吗? #NV#性能提升#DLSS4
NO CONTEXT HUMANS2024-12-28 12:33:09At 18 lifejackets she looks like a transformer #transformer#lifejackets#safety