时政
财经
科技
虚拟货币
其他
登录
#推理能力
关注
wong2
1周前
GPT-5模型的各种跑分都是按reasoning_effort=high来的,而ChatGPT里的这个GPT-5作为一个自动路由模型,很多时候都不会触发推理(于是连9.8和9.11哪个大都回答不好),可能这就是落差如此大的原因? (GPT-5 Thinking就好很多)
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#GPT-5模型
#reasoning_effort
#ChatGPT
#自动路由模型
#推理能力
分享
评论 0
0
wong2
1周前
GPT-5模型的各种跑分都是按reasoning_effort=high来的,而ChatGPT里的这个GPT-5很多时候都不会触发推理(于是连9.8和9.11哪个大都回答不好),可能这就是落差如此大的原因? (GPT-5 Thinking就好很多)
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 15 条信息
#GPT-5
#推理能力
#性能差异
#reasoning_effort
#ChatGPT
分享
评论 0
0
LinearUncle
3周前
用Gemini 2.5 Flash言出法随式阅读源代码。 Gemini 2.5 Pro 强在推理,Flash 强在速度:3-5 秒就把所有答案甩给你。 读代码?Flash 已经绰绰有余,问题刚脱口,解释就到位。 速度为王。
Google Gemini 2.5发布引发AI模型性价比热议· 97 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#Gemini 2.5 Flash
#源代码阅读
#速度快
#推理能力
#AI
分享
评论 0
0
歸藏(guizang.ai)
2个月前
看了一下机器之心的高考数学 AI 模型测试。 国内模型在过去一年的推理能力进步很真的挺大的,基本全部都能考上 130 多分。 豆包、DeepSeek的选择题和解答题得分都非常高,基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强,在所有客观题的测试中排第一。 从 o3 的基准测试来看即使没有像国产模型的高考数学数据,也不应该这么低,API 都这么低的分真有你的 Open AI。 所有模型在几何题上都有问题。说明现在所谓的多模态还远不够,模型没有真正理解空间关系。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 15 条信息
#高考
#人工智能
#数学
#AI测试
#机器之心
#豆包
#DeepSeek
#Gemini
#推理能力
#模型测试
分享
评论 0
0
sitin
2个月前
R1更新新版本DeepSeek-R1-0528,看似是个小版本,实际“在LiveCodeBench上几乎与OpenAI o3-high相当!” 难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=?”也能做对了。 广大网友已经迅速整理出了更新亮点: 1.能够像Google模型一样进行深入推理 2.改进了写作任务——更自然、格式更好 3,独特的推理风格——快速且深思熟虑 4.长时间思考——每个任务最长能思考30-60分钟
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek-R1-0528
#LiveCodeBench
#OpenAI
#o3-high
#顶流大模型
#数字新难题
#Google模型
#推理能力
#写作任务
分享
评论 0
0
小互
2个月前
Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强: 通过加大后训练算力,模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。 幻觉率显著降低: 在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠,事实一致性更高。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek
#DeepSeek-R1-0528
#推理能力
#AIME 2025
#幻觉率
分享
评论 0
0
澎湃新闻-10%公司
2个月前
DeepSeek官宣R1升级:提升思维深度与推理能力,整体表现已接近国际顶尖模型
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek
#R1升级
#思维深度
#推理能力
#国际顶尖模型
分享
评论 0
0
勃勃OC
2个月前
微软和 xAI 刚刚宣布:Grok 3 现已在 Azure AI Foundry 上线。 •Grok 3 具备先进的推理、编程和视觉能力 •由 xAI 构建,并依托微软安全的云平台 •免费预览现已上线,为期两周 同时也可在 GitHub Models 上获取。
马斯克Grok再升级,4代直播发布引爆AI· 22 条信息
#微软
#XAI
#Grok 3
#Azure AI Foundry
#推理能力
#编程能力
#视觉能力
#云平台
#GitHub Models
分享
评论 0
0
李老师不是你老师
4个月前
4月5日 Meta发布了其新一代开源大语言模型Liama4,其拥有超过4000亿参数,Meta宣称该模型是同类中最好的多模态模型(可以处理图像输入输出),在参数量更少运行门槛更低的情况下,编程和推理能力上和DeepSeek V3相当。 并且该模型完全免费开源,用户可以从Liama官网下载并部署在本地。
#Meta
#开源
#大语言模型
#Liama4
#多模态模型
#DeepSeek v3
#免费
#推理能力
分享
评论 0
0
勃勃OC
4个月前
OpenAI 已宣布计划在未来几个月内发布一款新的开源权重语言模型,具有增强的推理能力,这是自 GPT-2 以来的首次此类发布。该举措旨在通过与开发者、研究人员和社区互动,促进 AI 发展的开放性,并收集反馈。此举预计将推动 AI 领域的创新和社区参与。
#OpenAI
#开源语言模型
#GPT-2
#推理能力
#AI发展
#社区参与
分享
评论 0
0
勃勃OC
5个月前
xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力,以及一个Grok-mini的小模型 在 LMArena 上的 ELO 评分达到 1400,排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程(LiveCodeBench)—— 57% [推理后 80%] 此外,在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩,击败了 o3-mini-high。
#XAI
#大型语言模型
#Grok 3
#Grok-mini
#LMArena
#ELO评分
#推理能力
#AIME 24
#GPQA
#编程
#LiveCodeBench
#数学竞赛
#AIME 2025
分享
评论 0
0
环球网-环球时报
5个月前
马斯克称将发布“地球上最聪明AI”,最大特点是引入“思维链”推理能力
比原计划推迟了数月之后,美国亿万富豪埃隆·马斯克宣布,旗下的人工智能初创公司xAI将于美国当地时间2月17日晚上发布最新版Grok 3聊天机器人,他将Grok 3描述为“地球上最聪明的人工智能(AI)”,这也引起外界对Grok 3的高度关注。
马斯克Grok再升级,4代直播发布引爆AI· 22 条信息
#马斯克
#AI
#思维链
#推理能力
#科技创新
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞