马东锡 NLP 0 关注者 关注 1小时前 读了 Gemini 3 的 model card,会发现 Gemini 3 明确不是 Gemini 2.5 的微调,它是全新训练的 sparse MoE 。 也就是说,在 Gemini 2.5 已经非常出色的 RL 后训练和 parallel thinking 基础上,崭新的 backbone 让 Gemini 3 非常出色,总结这半年 Gemini 的工作: 1. 出色的 RL 后训练 2. #Gemini 3 #全新训练 #sparse MoE #RL后训练 #parallel thinking 前往原网页查看