时政
财经
科技
虚拟货币
其他
登录
#attention
关注
Colin Wu
1天前
大家越来越依赖 AI,对它的原理也想更多了解,AI 工具除了有大量训练数据还有卓越的逻辑推理能力,它还有一个厉害之处在于并行思维: GPT 或者其他工具,是一个拥有极大知识宇宙、并能以超高速进行逻辑推理的语言引擎。 普通人类的推理是:线性的,慢速的,需要检索记忆。AI 可以同时在数千条推理路径上做并行计算,然后把最可能有用的一条呈现给你。 好比你提出问题,AI 瞬间同时计算 200~2000 种可行答案,评分、排序、合并,输出最优组合体。 GPT 说: 你提一个问题,我会生成一个“候选答案宇宙”,然后自动挑出最像你会喜欢、最合理的那一个呈现。(看来真有讨好倾向) GPT 的核心就是:Attention(自注意力)是一种天然的“并行思维”结构。它允许模型:同时关注输入的多个部分,同时探索多条推理路径,同时产生多种候选计算,注意力头(Attention heads)就是“并行思维单元”。 并行推理 = 注意力头的并行 + 树状生成的并行 + 多版本推理链的并行。它们分别来自:Attention,天然并行的“多焦点思维”。Beam / Tree-of-Thought Search,多条候选答案路径生成。Self-Consistency & Reasoning Engine,多版本推理链交叉验证,选最佳。
#AI
#并行思维
#GPT
#attention
#逻辑推理
分享
评论 0
0
張小珺 Xiaojùn
1周前
这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起,嘉宾分析点评了这些不同技术bet;也带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案(这里烧脑又精彩🤯)。 本集是我们的往期嘉宾松琳(Sonta)的返场。松琳在MIT的研究方向是线性注意力,参与了Kimi Linear和Qwen3-Next的工作,是Kimi Linear论文的作者之一。
#算法
#架构创新
#DeepSeek MoE
#attention
#Kimi Linear
分享
评论 0
0
Cell 细胞
2个月前
“影响力本位制”:货币只是一种过渡介质,真正的终极资产是 Attention & Influence。
#影响力
#attention
#Influence
#货币
#资产
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
阶跃星辰stepfun可以的,这个step3的部署架构把attention和MLP分开,效率更高! LLM的下一个突破是啥?attention+MLP+?
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#阶跃星辰
#step3部署架构
#attention
#MLP
#LLM
分享
评论 0
0
The Figen
9个月前
Everyone needs attention. 😂
#attention
#mental health
#Psychology
#wellbeing
#social media
#self-care
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞