howie.serious
2小时前
gpt-5.1 在 EQ-bench 的creative writing v3 子榜单上超越sonnet 4.5 👏👏👏 对于非coding用户,这是一个非常好的迹象。表明在实践中,gpt-5.1可能会很有用。
howie.serious
6小时前
gpt-5.1 的指令跟随能力,达到了新高度。 指定“只用8个汉字回复”,gpt-5.1的正确率是100%,而gemini 2.5 pro和sonnet 4.5都是50%左右。 (英文版用6个单词,考虑到单词和单词语义承载能力的差异,增加到8个单词。实际上8-12都可以)
向阳乔木
8小时前
蝗虫群友一手实测,GPT 5.1幻觉严重,慎重使用。