Viking 0 关注者 关注 1周前 这个网站很棒: 针对大模型的独立性能监控追踪器,现在有 Opus 4.5 和 Codex gpt-5.2 的监控,查看这些模型在真实编码任务上的表现是否出现退化,也就是我们常说的大模型有没有降智。 每天自动跑基准测试,尽量模拟普通用户实际使用的体验。 结果发现Opus 4.5 在过去的 30 天有明显的降智,下降 4.0%(统计显著,达到显著性阈值 ±3.2%),这也我我的体验有点相符,而 前往原网页查看