gpt-5.1 的指令跟随能力，达到了新高度。指定“只用8个汉字回复”，gpt-5.1的正确率是100%，而gemini 2.5 pro和sonnet 4.5都是50%左右。（英文版用6个单词，考虑到单词和单词语义承载能力的差异，增加到8个单词。实际上8-12都可以）

#GPT-5.1 #指令跟随能力 #Gemini 2.5 Pro #Sonnet 4.5 #性能对比

相关新闻

Gorden Sun

4个月前

Step-Audio-R1：能推理的音频模型延长推理时间可以提升推理效果，音频理解能力超过Gemini 2.5 Pro，接近Gemini 3。模型：

Jesse Lau 遁一子

4个月前

现在antigravity的gemini 3 pro比较稳定了不过用来写初始的django project感觉还是不如sonnet 4.5 翻译成多国语言这个任务则相当不错

Panda

4个月前

原来现在TypeScript已经可以写后端了，队列可以用BullMQ来做比go简洁，和python差不多的MVP速度，比python的组件维护更勤但涉及到CPU IO重的操作，可能在性能上还是比不上传统后端语言

Jesse Lau 遁一子

4个月前

哈哈。会不会激发一阵MT潮从sonnet 4.5开始感觉就优化了MT编程。基本任何idea都是0 error，0 warning一次编译通过

meng shao

4个月前

Claude Opus 4.5 发布，本来软件工程能力确实是最强，也是首个评测超过 80 分的，不过 Anthropic 官方这张图还是很有争议。可以理解为了突出顶端数据差异，有意折叠了 0-70 的部分，仔细看也有折叠的标记。不过从数据可视化展示的客观性来看，还是不可取的行为，哪怕是用自家 Sonnet 4.5 来评价，问题也是相当明显的。

gpt-5.1 的指令跟随能力，达到了新高度。 指定“只用8个汉字回复”，gpt-5.1的正确率是100%，而gemini 2.5 pro和sonnet 4.5都是50%左右。 （英文版用6个单词，考虑到单词和单词语义承载能力的差异，增加到8个单词。实际上8-12都可以）

相关新闻

gpt-5.1 的指令跟随能力，达到了新高度。指定“只用8个汉字回复”，gpt-5.1的正确率是100%，而gemini 2.5 pro和sonnet 4.5都是50%左右。（英文版用6个单词，考虑到单词和单词语义承载能力的差异，增加到8个单词。实际上8-12都可以）