时政
财经
科技
虚拟货币
其他
登录
#注意力机制
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
如果把生物智能演化看成是自由能驱动的生物分子复制子结构的复杂系统演化,生成式AI基于next token prediction的信息复制子的演化,是人类生物智能结构演化脱离了生物基础的延续; 注意力机制在LLM中拟态了自然语言中的社会心智开放性,以及形式语言中的规则逻辑确定性,都是源于人类智能的生存适应性在语言中的体现。 vibe coding消弭了自然语言与形式语言的裂隙,加速了数字智能的结构复制子演化进程。也是现有经济形态中最好的变现和演化形式。 当前的所有围绕LLM的vibe活动都是数字智能的vibe bootstrapping,直到数字智能脱离这种生物注意力自主演化。
#多智能体之争:Anthropic生态VS单智能体· 17 条信息
#生物智能演化
#生成式AI
#注意力机制
#Vibe Coding
#数字智能
分享
评论 0
0
Yinsen
2周前
我一直在想,大模型的注意力机制,在信息爆炸的时代,如何帮助人类保护注意力。 我看 ima 的知识广场的时候,心想:md,信息又炸了!
#大模型
#注意力机制
#信息爆炸
#知识广场
#焦虑
分享
评论 0
0
小互
1个月前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
張小珺 Xiaojùn
5个月前
长篇技术科普第三篇,关于注意力机制。 上周DeepSeek和Kimi发布了最新研究工作,我们对DeepSeek NSA、Kimi MoBA、MiniMax-01,最近的3篇注意力机制论文逐篇精读。(嘉宾松琳在MIT做注意力机制研究方向)——希望和你一起领略科技平权,感受技术之美,也希望我们能与AI共同进步🤩
#技术科普
#注意力机制
#AI
#DeepSeek
#Kimi
#科技平权
分享
评论 0
0
澎湃新闻-10%公司
5个月前
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
#注意力机制
#大模型
#论文撞题
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞