时政
财经
科技
登录
#模型测试
关注
歸藏(guizang.ai)
2周前
看了一下机器之心的高考数学 AI 模型测试。 国内模型在过去一年的推理能力进步很真的挺大的,基本全部都能考上 130 多分。 豆包、DeepSeek的选择题和解答题得分都非常高,基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强,在所有客观题的测试中排第一。 从 o3 的基准测试来看即使没有像国产模型的高考数学数据,也不应该这么低,API 都这么低的分真有你的 Open AI。 所有模型在几何题上都有问题。说明现在所谓的多模态还远不够,模型没有真正理解空间关系。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 4 条信息
#高考
#人工智能
#数学
#AI测试
#机器之心
#豆包
#DeepSeek
#Gemini
#推理能力
#模型测试
分享
评论 0
0
LotusDecoder
2个月前
Chatgpt 的记忆功能,听起来美好。🤯 实际上没什么用,甚至还会很混乱。 不是model 和产品的问题, 是因为 AI 还在高速发展,没有定型下来。 一是,gpt 3.5 、gpt-4 、gpt-4o 老版本问的提示词,当年呆呆的, AI 的回答也笨笨的。缺乏数据价值。 二是,因为测试 model ,往里面塞了很多奇怪的东西。 barry 有多少个 R ? 青椒炒木地板好吃吗? 一个农民带着一只山羊和绵羊过河,一次只能带两只动物,最小过河次数是什么? 鲁迅为什么打周树人? 9.11 和 9.8 ,哪个大? 这些乱糟糟的记忆,Chatgpt 读出来,干嘛🤣
#ChatGPT
#记忆功能
#AI发展
#模型测试
#数据价值
分享
评论 0
0
宝玉
4个月前
让两个 AI 对弈是个不错的测试模型能力的方法
#AI对弈
#模型测试
#人工智能
#测试方法
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞