时政
财经
科技
虚拟货币
其他
登录
#性能泄露
关注
宝玉
6小时前
Gemini 3 Pro 已经可以在 AIStudio 使用了,模型卡也泄漏了,各方面都很强,除了软件工程基准(SWE Bench)方面略低于 Sonnet 4.5 和 GPT-5.1 直接转译下下面 Deepy 的总结: --- 谷歌最新一代AI大模型Gemini 3的性能数据,居然在官方发布前数小时提前泄露!从泄露的数据看,这款模型简直强大到离谱,让人忍不住想深入挖掘一下,它的发布究竟意味着什么? 1. 成本不再是障碍:普通人也能用得起的强大AI 谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高! 2. 电脑操作能力大跃升:真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”:其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。 4. 编程能力惊人,但还有成长空间 Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。 目前来看,谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说? - 成本优势:谷歌拥有自家芯片TPU,训练成本明显更低; - 数据优势:谷歌掌握远超其他公司的海量专有数据; - 资金优势:拥有雄厚财力投入更多训练和数据资源; - 人才优势:谷歌的人才储备也丝毫不输其他顶级公司。 这种全面碾压的格局,接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位,而其他公司能否追上,现在还是一个未知数。 无论如何,Gemini 3的发布注定将再次掀起一场AI界的大地震!
Google Gemini 2.5发布引发AI模型性价比热议· 306 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 682 条信息
#Gemini 3
#AI大模型
#性能泄露
#数学能力
#自动化
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞