时政

财经

科技

#transformer

马东锡 NLP 🇸🇪

2025-04-09 03:42:53

「LLM, Reasoning」论文： Rethinking Reflection in Pre-Training 预训练卷土重来，reasoning 时代神奇的 “wait” 再现。本周我最喜欢的一篇论文来了。来自 Essential AI，由 Ashish Vaswani 主导，对写过论文的人来说，这个引用太熟悉了（Vaswani et al., 2017）， Transforme

#预训练 #推理 #论文

2025-04-09 00:22:22

这个方法重要啊！生成一致性更好的长视频，解决长视频上下文难题！Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频（自注意力机制在处理长上下文时的低效所导致），研究提出了新的 Test-Time Training 层，其隐藏状态本身可以是神经网络，因此比传统层更具表现力，从而实现更具一致性、自然度和美感的长视频生成项目页（视频来自此）：

#长视频 #transformer #自注意力机制

2025-03-29 16:54:06

这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线，犹如2023年之前AI1.0时代的NLP和CV路线，后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点，当前还处于1.0时代，未来VLA模型成熟后，必然会将门槛极大的降低下来，泛化性能增强。 2.当前国内的大多数具身智能公司，很多都是用国外开源的路线二开

#朱啸虎 #具身智能 #AI1.0

杀马特副教授

2025-03-19 13:36:57

最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。先不说这个比喻合不合理，其实这个比喻的背后有个更根本的问题：“谁有资格拥有核武器”？ deepseek的模型是开源的，但是训练模型的方法并没有全部开源，到目前为止，利用deepseek提供的思路训练出来的大模型比如QWen QWQ，能够思考，“有点意思”，但是又“差点意思”。不过客观的说，现在基于transformer le

#辛顿 #核武器 #DeepSeek

2025-01-12 21:42:48

这次的NV也是大失所望还在玩5070(+dlss4)=4090(gaming)这种低级文字游戏，cuda数2w的5090比4090快30%这不是废话吗？功耗也涨了40%，结果是性能倒吸最关键的是2000刀的显卡居然只给了32G显存，现在二手A100都只要2500了整个发布会就只有DLSS4能看，还是50系专属，40系是跑不动transformer吗？
#NV #性能提升 #DLSS4

NO CONTEXT HUMANS

2024-12-28 12:33:09

At 18 lifejackets she looks like a transformer
#transformer #lifejackets #safety

没有更多了 🤐