红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1，断档式领先。对于这种新事物，我就不装“万事通”了：大家都是第一次听说，我刚在logseq里面新建了名为“xbench”的笔记，自己转述信息的质量不高，意义不大。请看来自o3的详细且全面介绍🤣

#红杉中国 #AI Agent #XBench #o3 #基准测试

相关新闻

sitin

10小时前

刷 GitHub，看到几个给 AI Agent“接互联网”的开源项目 1.web-access 给 Claude Code 补完整上网能力，它可以直接接管你正在用的 Chrome，连登录态都能复用。你已经登录的小红书、GitHub、各种网站，AI 都能直接进去看。还可以开子 Agent 并行查资料，查多个网站时速度明显快很多。 2.Lightpanda 它是直接从零造了一个给机器用的浏览

Geek

2天前

lark-cli 飞书/Lark 开放平台命令行工具一个专门为人类和 AI agent 设计的飞书 / Lark 命令行工具覆盖消息、文档、多维表格、电子表格、日历、邮箱、任务、会议等核心业务域，提供 200+ 命令及 19 个 AI Agent Skills

吕立青_JimmyLv 2𐃏26

5天前

我目前干任何事情的三个步骤： /deep-research 不管啥概念，先深度调研 /find-skills 不管啥技能，让 AI Agent 去学 /plan 直接开干，递归实现

卡比卡比

1周前

OpenCLI 迎来重磅更新：External CLI Hub 发布！ 🚀 以前，为了让 AI Agent 调用某个工具，你需要反复教它写不同的命令行。 OpenCLI 成为所有 CLI 的统一入口与路由中心！这样只需要让 AI agent 知道通过 OpenCLI 就能知道他有哪些 CLI可以使用，不用再搞一堆 CLI skill 了核心亮点：零配置纯透传不用写任何适配代码！直接运

欧阳拽白

1周前

现在币圈的一切生态，都是为了AI Agent服务的： ✦ 稳定币 = Agent 的"零门槛银行账户"（无需 KYC，秒级全球转账） ✦ DEX = Agent 的"自动化资产兑换层"（7×24 无需许可交易） ✦ DeFi = Agent 的"自主现金流引擎"（无需信用记录，算法驱动杠杆） Agent 不需要银行，Agent 需要区块链。