howie.serious

howie.serious

0 关注者

1个月前

gpt-5.1 的指令跟随能力,达到了新高度。 指定“只用8个汉字回复”,gpt-5.1的正确率是100%,而gemini 2.5 pro和sonnet 4.5都是50%左右。 (英文版用6个单词,考虑到单词和单词语义承载能力的差异,增加到8个单词。实际上8-12都可以)

#GPT-5.1 #指令跟随能力 #Gemini 2.5 Pro #Sonnet 4.5 #性能对比

相关新闻

placeholder

Gorden Sun

1个月前

Step-Audio-R1:能推理的音频模型 延长推理时间可以提升推理效果,音频理解能力超过Gemini 2.5 Pro,接近Gemini 3。 模型:

placeholder

Jesse Lau 遁一子

1个月前

现在antigravity的gemini 3 pro比较稳定了 不过用来写初始的django project感觉还是不如sonnet 4.5 翻译成多国语言这个任务则相当不错

placeholder

Panda

1个月前

原来现在TypeScript已经可以写后端了,队列可以用BullMQ来做 比go简洁,和python差不多的MVP速度,比python的组件维护更勤 但涉及到CPU IO重的操作,可能在性能上还是比不上传统后端语言

placeholder

Jesse Lau 遁一子

1个月前

哈哈。会不会激发一阵MT潮 从sonnet 4.5开始感觉就优化了MT编程。 基本任何idea都是0 error,0 warning一次编译通过

placeholder

meng shao

1个月前

Claude Opus 4.5 发布,本来软件工程能力确实是最强,也是首个评测超过 80 分的,不过 Anthropic 官方这张图还是很有争议。 可以理解为了突出顶端数据差异,有意折叠了 0-70 的部分,仔细看也有折叠的标记。 不过从数据可视化展示的客观性来看,还是不可取的行为,哪怕是用自家 Sonnet 4.5 来评价,问题也是相当明显的。

© 2025 news.news. All rights reserved. 0.03516 秒. v1.0.46
我的评论