#性能泄露

3个月前

Gemini 3 Pro 已经可以在 AIStudio 使用了，模型卡也泄漏了，各方面都很强，除了软件工程基准（SWE Bench）方面略低于 Sonnet 4.5 和 GPT-5.1 直接转译下下面 Deepy 的总结： --- 谷歌最新一代AI大模型Gemini 3的性能数据，居然在官方发布前数小时提前泄露！从泄露的数据看，这款模型简直强大到离谱，让人忍不住想深入挖掘一下，它的发布究竟意味着什么？ 1. 成本不再是障碍：普通人也能用得起的强大AI 谷歌这次从零开始，在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络（Mixture of Experts，简称MoE）架构，可以处理超长输入（高达100万token）和输出（64k token），而MoE设计的精妙之处就在于：即便性能爆炸提升，成本也并不会疯涨。也就是说，普通用户未来用上这么强大的AI，花费也不会太高！ 2. 电脑操作能力大跃升：真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力，包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍，遥遥领先！这意味着Gemini 3真正能够在复杂的工作场景下，帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”：其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习，数学能力超凡。在美国数学邀请赛（AIME）中几乎达到了“完美表现”，而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%（其他主流模型几乎都只有1%左右）。此外，它在体现真正“通用推理能力”的ARC AGI 2测试中，也创造了30%的领先记录，这显示Gemini 3不仅在数学上是顶尖的，通用推理能力也同样拔群。 4. 编程能力惊人，但还有成长空间 Gemini 3在编程测试中展现了惊人的实力，比如在LiveCodeBench的国际象棋等级分（Elo）评分超过了2400，非常优秀。但也有一点小插曲：它在软件工程基准（SWE Bench）中并未拿下第一，反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上，它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍，但在复杂、长期的代码维护方面，还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”：完善的训练方法、大量私有数据、全新的模型架构，然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级，明确告诉我们：AI领域的发展速度不仅没有放缓，甚至还在加速向前。目前来看，谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说？ - 成本优势：谷歌拥有自家芯片TPU，训练成本明显更低； - 数据优势：谷歌掌握远超其他公司的海量专有数据； - 资金优势：拥有雄厚财力投入更多训练和数据资源； - 人才优势：谷歌的人才储备也丝毫不输其他顶级公司。这种全面碾压的格局，接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位，而其他公司能否追上，现在还是一个未知数。无论如何，Gemini 3的发布注定将再次掀起一场AI界的大地震！

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 #AI大模型 #性能泄露 #数学能力 #自动化