时政
财经
科技
虚拟货币
其他
登录
#稀疏架构
关注
sitin
3周前
面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型,推理速度比同尺寸开源模型快3倍以上,综合能力达同级SOTA水平。 MiniCPM 4.1支持高效双频换挡,长文本用稀疏,短文本用稠密,推理效能高,长文本缓存锐减,端侧友好。 三大核心亮点 首个原生稀疏架构深思考模型 通过可训练稀疏注意力创新,代码、数学推理等任务推理速度比同尺寸开源模型快 3 倍以上。 同级 SOTA 综合性能 在知识、推理、编程、指令遵循等综合能力达到同级最佳水平。 高效双频换挡机制 长文本场景自动启用稀疏注意力,短文本场景切换至稠密注意力,兼顾效率与精度。
#MiniCPM 4.1
#稀疏架构
#深思考模型
#SOTA
#双频换挡
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞