Agent 的架构和 Claude Co- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

Agent 的架构和 Claude Code 的原理，Anthropic 去年发的那篇《Building effective agents》就讲的很清楚了，上个月的那篇《How we built our multi-agent research system》把 Deep Research 的原理也讲清楚了。 Agent 的底层原理就是模型在收到任务请求后，去调用不同的工具收集上下文信息，必要的话和用户进行讨论，然后规划任务，再借助工具执行任务，并且模型要判断任务的完成情况。早期的模型没有受过这套流程的强化学习训练，在调用工具、规划、判断任务完成方面都比较弱，所以像 Auto GPT 这样最早期的先驱，用 GPT-4 也做不出好的效果。到了 o3 之后，OpenAI 借助强化学习，训练了 Deep Research 这个垂直场景，在搜索任务和搜索相关工具的调用上，做到了极好的效果，接着其他家模型也跟进，所以现在很多模型在 Deep Research 这个场景上都做的不错。 Claude 4 则是把编程相关的工具调用和任务场景借助强化学习对模型进行了大量训练，所以 Claude Code 在编程场景效果很好。但当前的 Gemini 2.5 Pro 没有对 Claude Code 用到的那些工具做过强化学习训练，那么即使可以驱动 Claude Code，效果也会差一截。 Kimi K2 显然是针对 Claude Code 用到的工具做了大量强化学习训练，加上基座模型有不错的编程能力，所以使用 Claude Code 的效果也不错。有趣的是 K2 不是推理模型，但是执行 Agent 任务也做的不错，看来推理模型并非必须，但 RL 更重要。选择器是不是在用户手里，取决于模型之间的竞争，一家独大自然没有选择，百花齐放那就有得选，从趋势看，未来很难一家独大了，但是可能会有时间差，就像编程，短期肯定还是 Claude 4 最好。用户有得选，但 AI Agent 创业团队还是会面临辛苦优化的提示词和工作流被新一代模型能力内化的尴尬处境。比如 Deep Research、AI 播客类产品。

关联事件