Yangyi 0 关注者 关注 1个月前 这事儿有点意思… 50 位来自字节、阿里、腾讯等机构的 AI 研究员,联合发布了一份 300 页的论文,里面有些关于代码模型和 Agent 的结论,挺出人意料。 关键点: > 小模型也能打败大厂的专有模型 RL(特别是 RLVR)让小开源模型在推理方面超越大模型。 一个用 RLVR 在高质量验证问题上训练的 14B 模型,可以匹敌 OpenAI 的 o3。 > 模型学 Python 有 前往原网页查看