karminski-牙医 0 关注者 关注 1个月前 DeepSeek-V4 技术架构提前曝光! 大家都知道现在的大模型 MoE 架构是把AI的推理能力和知识都融合到了每个 Expert (专家) 当中的, 那么有没有可能让专家只用来推理, 然后大量的外部知识存储到特定区域, 形成如同攻壳机动队中描述的 Cyborg 其实是电子脑+外部记忆构成的这样的架构呢? 这个事情 DeepSeek 做成了! 前往原网页查看