howie.serious 0 关注者 关注 4个月前 红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣 #红杉中国 #AI Agent #XBench #o3 #基准测试 前往原网页查看