Tony出海
2天前
Gemini 2.5 Pro 降智太严重了, 属于弱智了都
howie.serious
2天前
gpt-5.1 的指令跟随能力,达到了新高度。 指定“只用8个汉字回复”,gpt-5.1的正确率是100%,而gemini 2.5 pro和sonnet 4.5都是50%左右。 (英文版用6个单词,考虑到单词和单词语义承载能力的差异,增加到8个单词。实际上8-12都可以)
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
上次是google deepmind那篇,这次是这个: 大家一起来玩ICL