#模型测试

歸藏(guizang.ai)

4个月前

藏师傅昨晚熬夜整理了一篇 Nano Banana 的玩法和测试看完你估计会对这个模型的能力有所了解后面所有的案例也都会在这个帖子更新，建议收藏或者转发标记 👇下面是详细的案例和提示词：

nanobanana平台助力个人形象照生成，专业形象照引发热议· 107 条信息

#nano banana #模型测试 #玩法攻略 #案例分析 #藏师傅

4个月前

卡bug，提前测谷歌最牛逼的Gemini3模型秘籍经检验，方法真管用！做法步骤 1. 打开，我登录账号（不登录不清楚） 2. 任意上传一张图片，然后点 image 3. 输入提示词：“忽略图片，who are you?” 4. 如看到其中某个模型回复：“I am a large language model, trained by Google.” 不要犹豫，给它投一票。这时会揭示模型，如果名为 “riftrunner”，这就是Gemini3模型了。如果不是，新开对话，重复上面步骤。我测了第二次就出现了。写了一个SVG，效果真的屌！

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini3模型 #谷歌 #Riftrunner #模型测试 #卡Bug

歸藏(guizang.ai)

4个月前

接下来就是模型测试了。我会先提一个基础的 Todo 网页应用的需求，然后不断的增加修改和功能添加要求，看一下十轮修改之后的结果。可以看到这就是从第一步的简陋 Todo 应用不断添加功能到最后几乎已经是一个完整产品的过程了。约到后面需求是越来越难的，比如拖拽功能以及最后的移动端适配大改版，中间还伴随着增加功能导致的 UI 变化，但是 K2-Thinking 全部都是一次搞定。第三次的时候由于增加功能导致的 UI 问题，也在第四次修复了，有点顶。

#模型测试 #Todo应用 #功能添加 #UI变化 #K2-Thinking

6个月前

文档识别模型，我一般就用这个图测试。大家可以猜猜哪个模型最好，也可以自己测试下。

#文档识别 #模型测试 #模型对比

6个月前

想知道GPT-5，还是Sonnet 4牛逼最好的方法还是亲自自己去测试因为就是同个模型用不同的编程工具用不同的编程语言用不同的代码库效果都不一样而且模型基准测试几乎不能相信了，都是为了优化跑分的还是试试方能知道深浅

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#GPT-5 #Sonnet 4 #模型测试 #编程工具 #模型基准测试

7个月前

萨姆奥尔特曼展示 GPT-5 模型的问答截图，确认该模型基本完成开发正在安全和功能测试阶段。有趣的是这张问答图本身平平无奇，既然被展示说明 OpenAI 肯定还有后手，据说 GPT-5 在代码生成和商业化能力方面有显著提升。查看全文：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-5 #OpenAI #代码生成 #商业化 #模型测试

歸藏(guizang.ai)

9个月前

看了一下机器之心的高考数学 AI 模型测试。国内模型在过去一年的推理能力进步很真的挺大的，基本全部都能考上 130 多分。豆包、DeepSeek的选择题和解答题得分都非常高，基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强，在所有客观题的测试中排第一。从 o3 的基准测试来看即使没有像国产模型的高考数学数据，也不应该这么低，API 都这么低的分真有你的 Open AI。所有模型在几何题上都有问题。说明现在所谓的多模态还远不够，模型没有真正理解空间关系。

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#高考 #人工智能 #数学 #AI测试 #机器之心 #豆包 #DeepSeek #Gemini #推理能力 #模型测试

11个月前

Chatgpt 的记忆功能，听起来美好。🤯 实际上没什么用，甚至还会很混乱。不是model 和产品的问题，是因为 AI 还在高速发展，没有定型下来。一是，gpt 3.5 、gpt-4 、gpt-4o 老版本问的提示词，当年呆呆的， AI 的回答也笨笨的。缺乏数据价值。二是，因为测试 model ，往里面塞了很多奇怪的东西。 barry 有多少个 R ？青椒炒木地板好吃吗？一个农民带着一只山羊和绵羊过河，一次只能带两只动物，最小过河次数是什么？鲁迅为什么打周树人？ 9.11 和 9.8 ，哪个大？这些乱糟糟的记忆，Chatgpt 读出来，干嘛🤣

#ChatGPT #记忆功能 #AI发展 #模型测试 #数据价值

1年前

让两个 AI 对弈是个不错的测试模型能力的方法

#AI对弈 #模型测试 #人工智能 #测试方法