meng shao

meng shao

0 关注者

11小时前

Claude Opus 4.5 发布,本来软件工程能力确实是最强,也是首个评测超过 80 分的,不过 Anthropic 官方这张图还是很有争议。 可以理解为了突出顶端数据差异,有意折叠了 0-70 的部分,仔细看也有折叠的标记。 不过从数据可视化展示的客观性来看,还是不可取的行为,哪怕是用自家 Sonnet 4.5 来评价,问题也是相当明显的。

相关新闻