howie.serious

howie.serious

0 关注者

7小时前

gpt-5.1 的指令跟随能力,达到了新高度。 指定“只用8个汉字回复”,gpt-5.1的正确率是100%,而gemini 2.5 pro和sonnet 4.5都是50%左右。 (英文版用6个单词,考虑到单词和单词语义承载能力的差异,增加到8个单词。实际上8-12都可以)

#GPT-5.1 #指令跟随能力 #Gemini 2.5 Pro #Sonnet 4.5 #性能对比

相关新闻

placeholder

howie.serious

3小时前

gpt-5.1 在 EQ-bench 的creative writing v3 子榜单上超越sonnet 4.5 👏👏👏 对于非coding用户,这是一个非常好的迹象。表明在实践中,gpt-5.1可能会很有用。

placeholder

howie.serious

6小时前

llm 能不能“说人话”,更多是底层模型层面的特点,而不是靠“prompt engineering”可以解决的。 gpt-5 系列模型“不说人话”,之前很多人试过很多prompt,即使感觉有效,很多时候都是感觉而已。 现在,gpt-5.1 从底层模型上尝试解决“说人话”问题。这才是正确的方向。 同一个prompt,gpt-5.1 thinking 的回答,解释更清楚,使用更少的行话术语

placeholder

向阳乔木

9小时前

蝗虫群友一手实测,GPT 5.1幻觉严重,慎重使用。

placeholder

NanYi

10小时前

OpenAI 上线 GPT-5.1:聊天更自然,能力更强。 两条产品线同步升级: 5.1 Instant:更温暖好聊,指令跟随更稳,遇到难题会“先想后答”。 5.1 Thinking:按题目难度动态拉长/缩短思考时间,复杂任务更扎实,简单任务更迅速。 同时新增更直观的语气/风格控制,回答更贴合你的偏好。 今日起逐步向付费用户推送,GPT-5 将在 Legacy 保留三个月,API 本周更新。

placeholder

Jesse Lau 遁一子

12小时前

GPT-5.1发布了。号称简单的任务回答巨快,复杂的任务回答巨深

© 2025 news.news. All rights reserved. 0.05663 秒. v1.0.46
我的评论