时政
财经
科技
登录
#transformer
关注
勃勃OC
1个月前
今天空间的里讨论的物理、飞机、涡轮发动机、鸟的飞行、开普勒、火星、机器人、AI、Transformer、和哲学水平,你打几分
#物理
#飞机
#涡轮发动机
#鸟的飞行
#开普勒
#火星
#机器人
#AI
#transformer
#哲学
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transformer 论文第一作者。 论文提出一个非常重要的发现:LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是,一个简单的 token ——“wait”—— 可以作为 reflection trigger,显著提升模型的 reasoning 表现。 相比当前主流的 post-training 方法,不断精细 reward model 的策略,这项工作跳出box,从新的角度审视大模型reasoning的问题。 说实话,RL 的各种 reward 操作看得人有点累觉不爱,而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上,并没有真正触及 reasoning 的本质:跨领域、跨任务、可迁移。 相比之下,pretraining 的方法显得更为“neat” —— 不仅更敏捷,也更接近 LLM 的能力本源。 Make pretraining Great Again!
#预训练
#推理
#论文
#Essential AI
#Ashish Vaswani
#transformer
分享
评论 0
0
-Zho-
2个月前
这个方法重要啊!生成一致性更好的长视频,解决长视频上下文难题!Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频(自注意力机制在处理长上下文时的低效所导致),研究提出了新的 Test-Time Training 层,其隐藏状态本身可以是神经网络,因此比传统层更具表现力,从而实现更具一致性、自然度和美感的长视频生成 项目页(视频来自此): 论文: 代码:
#长视频
#Test-Time Training
#transformer
#自注意力机制
#视频生成
分享
评论 0
0
AIGCLINK
3个月前
这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开改来的没啥太强的门槛,泛化能力很差,包括头部几家机器人公司也是如此,这种路线不会持久,犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后,ROS和VLA模型协同后,那么整个具身智能领域会进入2.0新的阶段,就像数字人公司在大模型公司加持后,产生了更强的价值。 4.当前市面上的,具身智能公司有场景的公司微乎其微,因为泛化能力不行,针对场景的落地成本极高,大都需要定制,只有VlA成熟后,才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型,国内智元说自己有,技术路线和商业路线不清晰,泡沫说实话太高,这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好,貌似很多人或者公司买就是为了拍视频装逼pr吧,不是实用性的消费,不进消费场景实际解决问题注定走不远。 #vla #具身智能
#朱啸虎
#具身智能
#AI1.0
#NLP
#CV
#transformer
#VLA模型
#泛化性能
#国内公司
#开源
分享
评论 0
0
杀马特副教授
3个月前
最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。 先不说这个比喻合不合理,其实这个比喻的背后有个更根本的问题:“谁有资格拥有核武器”? deepseek的模型是开源的,但是训练模型的方法并没有全部开源,到目前为止,利用deepseek提供的思路训练出来的大模型比如QWen QWQ,能够思考,“有点意思”,但是又“差点意思”。 不过客观的说,现在基于transformer lens (透镜)技术来考察的deepseek 并没有发现有什么特别的神秘技术。各种越狱版也工作正常。一定要认为大模型只能掌握在少数人手中的想法其实问题很大。
#辛顿
#核武器
#DeepSeek
#开源
#QWen QWQ
#transformer
分享
评论 0
0
大希沙织
5个月前
这次的NV也是大失所望 还在玩5070(+dlss4)=4090(gaming)这种低级文字游戏,cuda数2w的5090比4090快30%这不是废话吗?功耗也涨了40%,结果是性能倒吸 最关键的是2000刀的显卡居然只给了32G显存,现在二手A100都只要2500了 整个发布会就只有DLSS4能看,还是50系专属,40系是跑不动transformer吗?
#NV
#性能提升
#DLSS4
#显卡发布会
#显卡价格
#32G显存
#A100
#50系显卡
#transformer
分享
评论 0
0
NO CONTEXT HUMANS
6个月前
At 18 lifejackets she looks like a transformer
#transformer
#lifejackets
#safety
#fashion
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞