九原客

九原客

0 关注者

1周前

有人指控Pangu Pro MoE 模型其实是沿自Qwen2.5-14B(大小不一致没关系,可以通过复制参数的方式实现) 几个证据: 1. 毫无理由出现在Pangu Pro MoE代码库里的Qwen License 2. QKV偏置分析、激活值分布特征等统计结果 3. 架构和超参数的选择 建议自high可以,谨慎开源。

热门新闻