#attention

1天前

大家越来越依赖 AI，对它的原理也想更多了解，AI 工具除了有大量训练数据还有卓越的逻辑推理能力，它还有一个厉害之处在于并行思维: GPT 或者其他工具，是一个拥有极大知识宇宙、并能以超高速进行逻辑推理的语言引擎。普通人类的推理是：线性的，慢速的，需要检索记忆。AI 可以同时在数千条推理路径上做并行计算，然后把最可能有用的一条呈现给你。好比你提出问题，AI 瞬间同时计算 200～2000 种可行答案，评分、排序、合并，输出最优组合体。 GPT 说: 你提一个问题，我会生成一个“候选答案宇宙”，然后自动挑出最像你会喜欢、最合理的那一个呈现。(看来真有讨好倾向) GPT 的核心就是：Attention（自注意力）是一种天然的“并行思维”结构。它允许模型：同时关注输入的多个部分，同时探索多条推理路径，同时产生多种候选计算，注意力头（Attention heads）就是“并行思维单元”。并行推理 = 注意力头的并行 + 树状生成的并行 + 多版本推理链的并行。它们分别来自：Attention，天然并行的“多焦点思维”。Beam / Tree-of-Thought Search，多条候选答案路径生成。Self-Consistency & Reasoning Engine，多版本推理链交叉验证，选最佳。

#AI #并行思维 #GPT #attention #逻辑推理

張小珺 Xiaojùn

1周前

这篇很前沿，也很hardcore——关于算法和架构创新。由于数据、算力、算法三驾马车，数据难度增大，中国算力相对有限，中国的算法走在了世界前沿。近几年架构最大突破是DeepSeek的MoE，它让MoE成了全球共识；而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起，嘉宾分析点评了这些不同技术bet；也带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案（这里烧脑又精彩🤯）。本集是我们的往期嘉宾松琳（Sonta）的返场。松琳在MIT的研究方向是线性注意力，参与了Kimi Linear和Qwen3-Next的工作，是Kimi Linear论文的作者之一。

#算法 #架构创新 #DeepSeek MoE #attention #Kimi Linear

2个月前

“影响力本位制”：货币只是一种过渡介质，真正的终极资产是 Attention & Influence。

#影响力 #attention #Influence #货币 #资产

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

阶跃星辰stepfun可以的，这个step3的部署架构把attention和MLP分开，效率更高！ LLM的下一个突破是啥？attention+MLP+？

Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 657 条信息

#阶跃星辰 #step3部署架构 #attention #MLP #LLM

9个月前

Everyone needs attention. 😂

#attention #mental health #Psychology #wellbeing #social media #self-care