GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。我比较好奇的是除了给程序API调用，真的有人在工作中用 GPT-4.1-min

#GPT-OSS模型 #EQBench结果 #GPT-4.1-mini #Qwen3-30B-A3B #DeepSeek-R1

相关新闻

Geek

4个月前

火山方舟第二期协作奖励计划开始搞了： - 合作期延长至2026年3月31日 - 每日单模型免费额度从 50 万提升至 200 万 Tokens。有 DeepSeek-V3.1、Kimi-K2、DeepSeek-R1 还不错，感兴趣的朋友不妨多注册几个账号(要实名)，DeepSeek 不就自由了嘛。

Geek

4个月前

我为亲友们搭了一个AI平台，提供多种主流模型。尽管我推荐他们尝试 Gemini 2.5 PRO、GPT-5或GLM-4.6，但一直以来他们始终只使用 DeepSeek-R1。起初我不解，为何不试试更强大的模型，后来才意识到，DeepSeek-R1/V3 已完全满足他们的日常使用场景。也好，现在我能轻松找到 R1 的免费资源供应😅

karminski-牙医

5个月前

Claude-Sonnet-4.5 的 EQBench 结果出了，EQBench本身在第8名的成绩，不过创意写作和长篇创意写作直接来了个第一。所以除了用 Claude-Sonnet-4.5 写代码以外，也可以试试用 Claude-Sonnet-4.5 写文了，之前我一直用幻觉之王 DeepSeek-R1 来写一些创意性质的东西。感觉现在可以换换了。

新浪新闻-第一财经网

6个月前

DeepSeek首次回应“蒸馏OpenAI”质疑

环球网-科技日报

6个月前

登上《自然》！DeepSeek-R1训练方法发布