时政
财经
科技
虚拟货币
其他
登录
#LiveCodeBench
关注
sitin
2个月前
R1更新新版本DeepSeek-R1-0528,看似是个小版本,实际“在LiveCodeBench上几乎与OpenAI o3-high相当!” 难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=?”也能做对了。 广大网友已经迅速整理出了更新亮点: 1.能够像Google模型一样进行深入推理 2.改进了写作任务——更自然、格式更好 3,独特的推理风格——快速且深思熟虑 4.长时间思考——每个任务最长能思考30-60分钟
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek-R1-0528
#LiveCodeBench
#OpenAI
#o3-high
#顶流大模型
#数字新难题
#Google模型
#推理能力
#写作任务
分享
评论 0
0
勃勃OC
5个月前
xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力,以及一个Grok-mini的小模型 在 LMArena 上的 ELO 评分达到 1400,排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程(LiveCodeBench)—— 57% [推理后 80%] 此外,在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩,击败了 o3-mini-high。
#XAI
#大型语言模型
#Grok 3
#Grok-mini
#LMArena
#ELO评分
#推理能力
#AIME 24
#GPQA
#编程
#LiveCodeBench
#数学竞赛
#AIME 2025
分享
评论 0
0
AIGCLINK
7个月前
酷!智谱最新发布了其基于扩展强化学习技术训练的推理模型:GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题 在AIME 2024、MATH500 和 LiveCodeBench评测中,效果与OpenAI-o1-Preview相当 在逻辑推理方面,GLM-Zero-Preview 善于识别逻辑漏洞,能够模拟多种假设和可能性 在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题 #GLM #GLMZeroPreview #LLM
#智谱
#扩展强化学习
#GLM-Zero-Preview
#逻辑推理
#AIME 2024
#MATH500
#LiveCodeBench
#OpenAI-o1-Preview
#数学
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞