时政
财经
科技
虚拟货币
其他
登录
#软件工程能力
关注
图拉鼎
12小时前
Claude 4.5 Opus 把 SWE Bench 评测分提到 80.9% 了,算是软件工程能力已经达到 80 分了吧。不知道取得 90 分还要多久,根据最后的 20% 还要 80% 的付出(或者最后 10% 还要 90%)的原则,可能还要很久很久… PS:上个月送的 Claude Max 订阅还有六天就要到期了,找时间试一试 4.5 Opus。
#Claude 4.5 Opus
#SWE Bench
#软件工程能力
#评测分数提升
#Claude Max订阅
分享
评论 0
0
meng shao
13小时前
Claude Opus 4.5 发布,本来软件工程能力确实是最强,也是首个评测超过 80 分的,不过 Anthropic 官方这张图还是很有争议。 可以理解为了突出顶端数据差异,有意折叠了 0-70 的部分,仔细看也有折叠的标记。 不过从数据可视化展示的客观性来看,还是不可取的行为,哪怕是用自家 Sonnet 4.5 来评价,问题也是相当明显的。
#Claude Opus 4.5
#软件工程能力
#Anthropic
#数据可视化争议
#Sonnet 4.5
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞