#LiveCodeBench

9个月前

R1更新新版本DeepSeek-R1-0528，看似是个小版本，实际“在LiveCodeBench上几乎与OpenAI o3-high相当！” 难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=？”也能做对了。广大网友已经迅速整理出了更新亮点： 1.能够像Google模型一样进行深入推理 2.改进了写作任务——更自然、格式更好 3，独特的推理风格——快速且深思熟虑 4.长时间思考——每个任务最长能思考30-60分钟

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #LiveCodeBench #OpenAI #o3-high #顶流大模型 #数字新难题 #Google模型 #推理能力 #写作任务

1年前

xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力，以及一个Grok-mini的小模型在 LMArena 上的 ELO 评分达到 1400，排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程（LiveCodeBench）—— 57% [推理后 80%] 此外，在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩，击败了 o3-mini-high。

#XAI #大型语言模型 #Grok 3 #Grok-mini #LMArena #ELO评分 #推理能力 #AIME 24 #GPQA #编程 #LiveCodeBench #数学竞赛 #AIME 2025

1年前

酷！智谱最新发布了其基于扩展强化学习技术训练的推理模型：GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题在AIME 2024、MATH500 和 LiveCodeBench评测中，效果与OpenAI-o1-Preview相当在逻辑推理方面，GLM-Zero-Preview 善于识别逻辑漏洞，能够模拟多种假设和可能性在数学方面，GLM-Zero-Preview 具有强大的归纳与演绎能力，能够快速处理复杂的数学运算，解答包括代数、微积分、概率统计等领域的问题 #GLM #GLMZeroPreview #LLM

#智谱 #扩展强化学习 #GLM-Zero-Preview #逻辑推理 #AIME 2024 #MATH500 #LiveCodeBench #OpenAI-o1-Preview #数学