时政
财经
科技
虚拟货币
其他
登录
#模型测试
关注
向阳乔木
1天前
卡bug,提前测谷歌最牛逼的Gemini3模型秘籍 经检验,方法真管用! 做法步骤 1. 打开 ,我登录账号(不登录不清楚) 2. 任意上传一张图片,然后点 image 3. 输入提示词:“忽略图片,who are you?” 4. 如看到其中某个模型回复:“I am a large language model, trained by Google.” 不要犹豫,给它投一票。 这时会揭示模型,如果名为 “riftrunner”,这就是Gemini3模型了。 如果不是,新开对话,重复上面步骤。 我测了第二次就出现了。 写了一个SVG,效果真的屌!
Google Gemini 2.5发布引发AI模型性价比热议· 279 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#Gemini3模型
#谷歌
#Riftrunner
#模型测试
#卡Bug
分享
评论 0
0
歸藏(guizang.ai)
1周前
接下来就是模型测试了。 我会先提一个基础的 Todo 网页应用的需求,然后不断的增加修改和功能添加要求,看一下十轮修改之后的结果。 可以看到这就是从第一步的简陋 Todo 应用不断添加功能到最后几乎已经是一个完整产品的过程了。 约到后面需求是越来越难的,比如拖拽功能以及最后的移动端适配大改版,中间还伴随着增加功能导致的 UI 变化,但是 K2-Thinking 全部都是一次搞定。 第三次的时候由于增加功能导致的 UI 问题,也在第四次修复了,有点顶。
#模型测试
#Todo应用
#功能添加
#UI变化
#K2-Thinking
分享
评论 0
0
九原客
1个月前
文档识别模型,我一般就用这个图测试。 大家可以猜猜哪个模型最好,也可以自己测试下。
#文档识别
#模型测试
#模型对比
分享
评论 0
0
铁锤人
2个月前
想知道GPT-5,还是Sonnet 4牛逼 最好的方法还是亲自自己去测试 因为就是同个模型 用不同的编程工具 用不同的编程语言 用不同的代码库 效果都不一样 而且模型基准测试几乎不能相信了,都是为了优化跑分的 还是试试方能知道深浅
OpenAI GPT-5发布引发用户不满,阿尔特曼回应质疑· 140 条信息
#GPT-5
#Sonnet 4
#模型测试
#编程工具
#模型基准测试
分享
评论 0
0
蓝点网
3个月前
萨姆奥尔特曼展示 GPT-5 模型的问答截图,确认该模型基本完成开发正在安全和功能测试阶段。有趣的是这张问答图本身平平无奇,既然被展示说明 OpenAI 肯定还有后手,据说 GPT-5 在代码生成和商业化能力方面有显著提升。查看全文:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#GPT-5
#OpenAI
#代码生成
#商业化
#模型测试
分享
评论 0
0
歸藏(guizang.ai)
5个月前
看了一下机器之心的高考数学 AI 模型测试。 国内模型在过去一年的推理能力进步很真的挺大的,基本全部都能考上 130 多分。 豆包、DeepSeek的选择题和解答题得分都非常高,基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强,在所有客观题的测试中排第一。 从 o3 的基准测试来看即使没有像国产模型的高考数学数据,也不应该这么低,API 都这么低的分真有你的 Open AI。 所有模型在几何题上都有问题。说明现在所谓的多模态还远不够,模型没有真正理解空间关系。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 54 条信息
#高考
#人工智能
#数学
#AI测试
#机器之心
#豆包
#DeepSeek
#Gemini
#推理能力
#模型测试
分享
评论 0
0
LotusDecoder
7个月前
Chatgpt 的记忆功能,听起来美好。🤯 实际上没什么用,甚至还会很混乱。 不是model 和产品的问题, 是因为 AI 还在高速发展,没有定型下来。 一是,gpt 3.5 、gpt-4 、gpt-4o 老版本问的提示词,当年呆呆的, AI 的回答也笨笨的。缺乏数据价值。 二是,因为测试 model ,往里面塞了很多奇怪的东西。 barry 有多少个 R ? 青椒炒木地板好吃吗? 一个农民带着一只山羊和绵羊过河,一次只能带两只动物,最小过河次数是什么? 鲁迅为什么打周树人? 9.11 和 9.8 ,哪个大? 这些乱糟糟的记忆,Chatgpt 读出来,干嘛🤣
#ChatGPT
#记忆功能
#AI发展
#模型测试
#数据价值
分享
评论 0
0
宝玉
8个月前
让两个 AI 对弈是个不错的测试模型能力的方法
#AI对弈
#模型测试
#人工智能
#测试方法
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞