orange.ai2025-02-28 08:05:37GPT 4.5 终于发布了,Scaling Law 撞墙说的就是它? 预训练的计算量是 GPT4 的10倍,但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5,但是不如 Claude 3.7 国外网友在吹写作,但是也有人发现不如 DeepSeek R1 输入75美元,输出150美元/百万token,是其他模型的10-100倍。 又贵,又慢,又不够好 非常尴尬#GPT4.5发布#ScalingLaw#基准测试