#AI测试

歸藏(guizang.ai)

4个月前

很有意思的测试，跟 AI 说： “写一段文字精彩程度让我惊叹的文字，并尽可能全面地展现你的能力。然后解释你是怎么做到的。” 换成中文试了一下 GPT-5 Pro 是所有模型最特别的一个，所有模型都是将写作和文学技巧融入一整段话里面，就他是拆开的，每个技巧写了一段。 Gemini 2.5 Pro 是最言之有物的，不只是堆砌无意义的词藻和描述壮观的科幻场面，还讲了人类和它自己是怎么来的 Claude-Opus-4.1 的很短，但是读起来很顺畅，非常容易理解，技巧也有至于 Grok ，只能说看起来确实很崇拜马斯克

#AI测试 #GPT-5 Pro #Gemini 2.5 Pro #Claude-opus-4.1 #Grok

5个月前

我刚刚做了一个测试，用同一中文指令让AI做简单程序（从polymarket找相应提问的预测值），然后用Claude 4.6、Codex、GLM4.6、Kimi、Deepseek3.2、Qwen这几个常用的中美Vibe工具测试。结果是Claude、GLM4.6不合格，无法提取结果，其他4个都完成了任务。所以我毫不犹豫退订了没完成任务的AI。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#AI测试 #Claude 4.6 #GLM4.6 #AI工具测评 #用户体验

5个月前

每次开发完推送到Vercel，都会遇到构建失败，今天直播也发生了类似问题。直播中的朋友提到，可以添加一个构建规则（rule），每次修改后确保重新构建以确保成功。如果构建失败，就得修复问题（以前我都是让AI跑测试，但这样消耗很多token）。其实，不仅可以在Claude规则里添加，还可以在Git的pre-commit里做这些修改。这些是以前知道的，但一个人开发的时候，往往会忘记这些细节。 build in public 的好处就是能得到大家的反馈，避免闭门造车。

#Vercel构建失败 #构建规则 #pre-commit #build in public #AI测试

6个月前

有同学在问我怎么进行 AI 编程。我一般是先跟 Claude 沟通，把这个需求定下来。之后生成一个文档，生成完文档之后，让另外一个 Claude 去执行里面的内容。执行完之后，我一般会用 PlayWright 来让整个 AI 帮我测试。这样就能保证一些基础问题不会出现。否则的话，AI 开发完了之后，可能会出现一些基础的页面问题、组件缺失问题等等，这样也会浪费时间。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#AI编程 #Claude #Playwright #AI测试 #自动化测试

歸藏(guizang.ai)

9个月前

看了一下机器之心的高考数学 AI 模型测试。国内模型在过去一年的推理能力进步很真的挺大的，基本全部都能考上 130 多分。豆包、DeepSeek的选择题和解答题得分都非常高，基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强，在所有客观题的测试中排第一。从 o3 的基准测试来看即使没有像国产模型的高考数学数据，也不应该这么低，API 都这么低的分真有你的 Open AI。所有模型在几何题上都有问题。说明现在所谓的多模态还远不够，模型没有真正理解空间关系。

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#高考 #人工智能 #数学 #AI测试 #机器之心 #豆包 #DeepSeek #Gemini #推理能力 #模型测试

1年前

如果你用 ai 编程却不让 ai 写测试用例，那你就不是 ai 的主人，而是 ai 的奴隶。你只是 ai 的测试员。

#AI编程 #测试用例 #AI测试