宝玉

宝玉

GPT-4.5 重磅发布:天价算力背后的性能迷局,AI Scaling Law 到尽头了吗? 2025 年 2 月 27 日,OpenAI 正式发布了其迄今为止规模最大的 AI 模型——GPT-4.5(代号 Orion)。尽管 OpenAI 表示 GPT-4.5 是该公司有史以来算力和数据规模最大的模型,但这次的性能提升并未像此前 GPT 系列一样带来革命性的飞跃。不仅如此,GPT-4.5 高昂的运行成本和在一些关键基准测试上的表现差强人意,甚至让外界开始怀疑——AI 长期依赖的Scaling Law(规模定律),正在走向终点了吗? 巨型模型、巨额成本,但性能未如预期 此次 GPT-4.5 发布最引人注目的,莫过于其惊人的成本——每 100 万输入 token 收费 75 美元,输出 token 更高达 150 美元。这意味着 GPT-4.5 的成本是 OpenAI 自己广泛使用的主力模型 GPT-4o 的30 倍,更是竞争对手 Claude 3.7 Sonnet 的25 倍。 OpenAI 发言人承认,GPT-4.5 的运行成本之高,使得公司必须重新评估它未来是否适合长期开放 API。 如此巨额成本背后,GPT-4.5 的性能究竟如何呢? 性能迷雾:优势与劣势并存 尽管 OpenAI 将 GPT-4.5 定位为非推理模型(Non-Reasoning Model),但它的表现却出现了明显的两极分化。 ✅ 明确的性能提升领域: - 事实性问答 (SimpleQA) 基准测试中,GPT-4.5 优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini,幻觉(hallucination)的频率也明显降低。 - 软件开发(SWE-Lancer) 测试中,GPT-4.5 表现优于 GPT-4o 和 o3-mini,在开发完整软件功能时具有更高的可靠性。 ❌ 性能不及预期的领域: - 在高难度的学术推理类测试(如 AIME 和 GPQA)中,GPT-4.5 表现低于竞争对手 Claude 3.7 Sonnet、DeepSeek R1 和 OpenAI 自家的推理模型 o3-mini。 性能对比之谜:成本 vs 性能提升 GPT-4.5 虽然在一些特定任务上确实表现出色,但考虑到成本的激增,性能并未出现对应比例的显著提升。特别是在需要深度推理的任务上,GPT-4.5 远不如更便宜的推理型模型 Claude 3.7 Sonnet 和 OpenAI 的深度推理模型 Deep Research。 Devin 公司 CEO Scott Wu 在推特上也指出,GPT-4.5 在涉及架构设计和跨系统交互的任务上表现突出,但在纯粹的代码编写和编辑任务上却逊色于 Claude 3.7 Sonnet。这种性能的细微差别进一步证明,单纯的扩大模型规模,可能已不能带来跨领域全面的性能跃升。 从性能到情感智能:“微妙的提升” OpenAI CEO Sam Altman 提到了 GPT-4.5 独特的魅力——它带来了以往模型所缺乏的“人性化”的感觉,虽然在数学、代码等硬核推理领域并不出彩,但在理解人类意图和情感回应方面达到了新的高度。 OpenAI 展示了一个情感交流的案例,当用户表示考试失败而难过时,GPT-4.5 给出的安慰更为贴心且符合社交情境:(图 4) 正如 Andrej Karpathy 所言:“每代 GPT 都是微妙的提升,一切都变得更好一点,但无法具体指出哪一项是绝对的突破。” Scaling Law 失效了吗? 此次 GPT-4.5 发布最令人关注的一点,在于它似乎验证了 AI 界早有预言的“规模定律的终结”。OpenAI 联合创始人 Ilya Sutskever 曾直言:“我们已经达到了数据的巅峰,传统的预训练方式即将终结。” GPT-4.5 的性能曲线证实了他的预测——随着模型规模继续扩大,其性能的提升不再显著,甚至出现了严重的成本与收益不成比例的现象。 市场也开始感受到这一趋势: > “DeepSeek R1:我们不再需要大量 GPU 进行预训练; OpenAI GPT-4.5:我们已到 GPU 预训练的尽头。” GPU 算力瓶颈已成新常态,甚至引发了 GPU 供不应求的现象,这背后反映的是产业链面对 AI 规模困境的真实反应。 GPT-4.5:AI 发展的分水岭? OpenAI 已明确表示 GPT-4.5 不会成为 GPT-4o 的替代品。相反,它更可能是 OpenAI 向 GPT-5 和未来结合推理模型路线的转折点,象征着公司逐渐告别单纯依赖大规模预训练的时代。 总结而言: GPT-4.5 展示了 AI 在预训练模式下的规模极限。 性价比问题凸显,纯规模化扩张已无法带来突破性进步。 情感智能提升明显,可能开启 AI 交互方式新趋势。 此次 GPT-4.5 的发布,或许正是 AI 发展道路上的重要里程碑——它提醒着我们,未来的 AI 模型,也许需要的不再只是更多的 GPU 和数据,而是对智能本质的更深入理解。 GPT-4.5 的登场,最终是否宣告 AI Scaling Law 的终结,仍有待时间检验。但毋庸置疑的是,AI 产业已站在变革的路口,传统的规模化预训练模式即将迎来一次深刻的反思与变革。

评论 0

热搜榜

24小时点击排行

1

最新消息 - 美国总统唐纳德·川普的生日和美国陆军成立 250 周年的双重庆祝活动将包括多达 25 辆坦克驶过华盛顿特区 - 路透社

2

普京不去土耳其谈判了,特朗普又自作多情了一把! 上个周末,普京回应英法德的停火通牒,说要与乌克兰直接谈判(地点:土耳其,时间:周四)。特朗普立刻敦促泽连斯基要抓住机会,并且表示他就在中东访问,如果普京去谈判,他也想去参加。 克里姆林宫刚刚发布了谈判人员名单,不仅普京不在代表团名单里,普京的高级幕僚,如拉夫罗夫都不会去。 在普京面前,特朗普的就像一个傻蛋!他掏心掏肺地为了普京好,为了普京根本不

3

赵晓:川普“闯关”成功了吗?——让数据来说话/2025年春,世界经济学界屏息以待,仿佛即将见证一场“政策灾难”:川普总统再度出山,高举“对等关税”大旗,对90个国家征收10%统一关税,对57个与美贸易逆差严重的国家追加11%至50%的惩罚性关税。 这是惊天之举!媒体与专家对此几乎众口一词:这是通胀的引信、是金融崩盘的前奏、是美联储的梦魇。 随着股市震荡急剧向下,熊市似乎已至。左派在各城市爆发抗

4

川普表示他对参加在土耳其举行的乌克兰问题会谈持开放态度,但不确定俄罗斯普京是否会参加会谈

5

今年西安的天气真是太反常了,大半个月的风沙天,把树叶都刮没了,又是断断续续的高温天。要知道,39°的高温,一般只有七月的三伏天才有有,现在五月份已经有了。天气预报天天预警恶劣天气,可面对这样的极端天气,农民除了逆来顺受还能怎么样呢!我跟我爸说,今年果园就别投资了,回报肯定不够投资的。他说该买的年初就买了,退也退不掉。不把精力花在果园,又能花在哪里呢!好像被命运锁定了似的,明知道没收益还不得不继续…

6

5月14日,红星美凯龙发布公告,称董事兼总经理车建兴被云南省监察委立案调查并实施留置措施。 但截至公告发出时未收到政府部门任何书面形式的通知书和协助调查要求。

7

5月14日,从外省赶赴郑州的河南村镇银行储户汤敏飞在河南省信访局排队领取面见中央巡视组的预约号时,再次遭到发号的河南籍工作人员的刁难:同行3个外省人仅给1个预约号。因遭受不公待遇,汤敏飞拿起手机拍摄视频固定证据。之后,在中共河南省委办公楼附近,十几个不明身份的大块头男性抢劫汤敏飞的手机。 汤敏飞被吓得心脏病发,全身抽搐,被送往郑大二附院心外科住院。储户家属报警七次,没有警察出警,也没有警察电话回复

8

1947 年,上海街头的交通。

9

小红书上一些体制内工作者吐槽,因为绩效一直不发,准备准备找一些副业或者贷款生活。

10

网友投稿 5月14日,内蒙古通辽市。 科尔沁区丰田镇西富村村民曝光,村里的4个铁门报价9660元。