时政
财经
科技
登录
#MoE模型
关注
karminski-牙医
2个月前
Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现,并加强了 MCP 的支持 另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布
#Qwen3
#MoE模型
#非MoE模型
#AI模型发布
分享
评论 0
0
勃勃OC
4个月前
DeepSeek 推出了 DeepEP,这是一款开源通信库,旨在提高混合专家(MoE)模型的训练和推理效率。 DeepEP 通过支持 NVLink 和 RDMA 技术的节点内(intranode)和节点间(internode)配置来优化 GPU 通信。它具备高吞吐量和低延迟的计算内核,并支持 FP8 运算,旨在降低训练成本并提升 AI 模型的可扩展性。 该发布受到了 AI 社区的热烈欢迎,凸显了其在处理大规模 AI 任务方面设立新标准的潜力。
#DeepSeek
#DeepEP
#开源通信库
#混合专家模型
#MoE模型
#GPU通信
#NVLINK
#RDMA技术
#AI模型
#FP8运算
#计算效率
#AI社区
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞