#MoE模型

karminski-牙医

2025-04-29 05:08:32

Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本

#Qwen3 #MoE模型 #非MoE模型

2025-02-26 12:01:47

DeepSeek 推出了 DeepEP，这是一款开源通信库，旨在提高混合专家（MoE）模型的训练和推理效率。 DeepEP 通过支持 NVLink 和 RDMA 技术的节点内（intranode）和节点间（internode）配置来优化 GPU 通信。它具备高吞吐量和低延迟的计算内核，并支持 FP8 运算，旨在降低训练成本并提升 AI 模型的可扩展性。该发布受到了 AI 社区的热烈欢迎，凸显

#DeepSeek #DeepEP #开源通信库