你怎么看待这个针对语言模型的智商测试？ > claude 4 opus目前以120分的离线成绩和117分的Mensa挪威测试成绩领先 > o3模型在Mensa测试中得分更高，达到了135分这些结果令人印象深刻。不能确定这个测试有多准确，或者它是如何衡量AI的智商的？这或许并不是评判AI智能的最佳方式来自：Haider.

#语言模型 #AI智商测试 #Mensa测试 #AI智能

相关新闻

Bryan

2天前

Codex 能力一流，但是看它说的话太难受了 🙏来个插件，内部保持它那套不动，但最终结果给我看的时候用 Claude 润色下吧

Limbo

1周前

你们的codex 是不是也是一样，小骚话满天飞 🤣

郭宇 guoyu.eth

1周前

在小红书上看了一个为什么闪光灯可以让铁盆发出声音的科普视频，脑子里突然闪过一个非常有意思的新想法，我们身处的环境与能量，都可以通过语言模型来进行转换，换句话说，世界上一切能量的交换都可以是信息的交换。只是我们（人类）需要一种方式能更直观的看到它！

蓝点网

2周前

#Chrome 带来开发者工具 #MCP 功能，允许 AI 智能体直接调用浏览器进行调试操作。AI 智能体可以根据用户命令修改本地代码并在浏览器中进行实测，开发者可以可视化观看变更，该功能广泛支持 Claude Code 等工具，也支持 OpenClaw 等 AI 机器人：演示视频👇👇👇

郭宇 guoyu.eth

3周前

今天正式上线了第 9 个 vibe 项目，这个开源项目既是我在 codeben, chatben 当中的 sandbox 实践的抽象，也是接下来要发布的云端“1人公司”产品的核心组件，在 agent matrix 时代，云端沙箱成为了无比重要的基础设施，因为代码不再由预定义的程序执行，而是由语言模型现写现用，有史以来，软件不再是写死的服务，而是流动的 token。每个云端沙箱的 API