2025-06-16 15:12:30

howie.serious
红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣
相关信息
2025-06-13 04:52:33
今天准备发王维的禅诗播客 因主流程都是gemini干的,怕有幻觉,让o3交叉验证了一下,全部正确😁
2025-06-12 11:52:42
o3-pro能使用哪些工具? 和o3的full tool-use相比,o3-pro不能生成图片(image_gen),不能更新记忆(bio)。其他工具都可以调用。 此外,o3-pro不像o3那样有清晰的、step-by-step的思考路径。这是一个巨大的遗憾。openai做了隐藏处理,思考十几分钟,但思考过程基本上全都不展示。
2025-06-11 14:21:38
OpenAI o3 今天降价了80%.
评论 0