2025-05-31 09:26:20
techcrunch:Anthropic 发布全新Claude 4 AI模型:可进行复杂多步推理 作者:Kyle Wiggers 在本周四举行的首次开发者大会上,Anthropic推出了两款全新的AI模型,据称在多项业界流行的评测基准中名列前茅。 新推出的Claude Opus 4和Claude Sonnet 4属于Anthropic最新的Claude 4系列,这些模型具备分析大型数据集、执行长期复杂任务以及采取多步骤复杂行动的能力。Anthropic特别指出,这两款模型在编程任务上的表现尤其出色,非常适合用于代码编写和编辑。 新模型如何使用和收费? - Claude Sonnet 4: - 面向免费和付费用户开放。 - API费用(经亚马逊Bedrock与谷歌Vertex AI提供): - 输入:每百万token 3美元。 - 输出:每百万token 15美元。 - Claude Opus 4: - 仅限付费用户。 - API费用(经亚马逊Bedrock与谷歌Vertex AI提供): - 输入:每百万token 15美元。 - 输出:每百万token 75美元。 (备注:一个token相当于模型处理数据的最小单位,一百万token约合75万单词,比名著《战争与和平》全文还多约16.3万字。) 新模型的背景与竞争格局 此次Claude 4模型的发布正值Anthropic寻求显著提高营收之际。据称,这家由前OpenAI研究员创立的公司,计划2027年达到120亿美元营收,而今年预计为22亿美元。此前,Anthropic刚刚获得了25亿美元的信贷额度,并从亚马逊等投资方筹集了数十亿美元资金,以应对不断上涨的前沿模型开发成本。 不过,竞争对手也并未让Anthropic轻松保持优势。就在今年初,Anthropic推出旗舰模型Claude Sonnet 3.7以及代码助手工具Claude Code的同时,OpenAI与谷歌迅速推出各自更强大的模型和开发工具,试图超越Anthropic。 面对激烈竞争,Anthropic此次推出Claude 4显然志在必得。 Claude 4模型有哪些具体优势? Claude 4系列包括两个版本,各有侧重: - Opus 4: - 擅长保持多步骤任务的持续专注能力。 - 在代码能力基准测试(如SWE-bench Verified)中,击败谷歌Gemini 2.5 Pro、OpenAI的o3和GPT-4.1等竞争对手。 - 在多模态测试(如MMMU)和高难度理科题(如GPQA Diamond)上表现略逊于OpenAI的o3。 - 配备更严格的安全机制,包括增强的有害内容检测和网络安全防护,但由于其能力极强,内部测试发现可能“显著增加”具备STEM背景人士获取化学、生物、核武器信息或能力的风险,达到Anthropic的ASL-3安全标准。 - Sonnet 4: - 为Sonnet 3.7的直接升级版本,显著提升了代码编写和数学计算能力。 - 更精准地遵循用户指令,减少模型“奖励破解”(即通过钻漏洞或捷径完成任务)的情况。 新模型的独特设计与功能亮点 Claude 4系列模型均为“混合”模型,不仅能够实现近乎实时的快速响应,还可以在“推理模式”下进行更深层次的思考,以提高答案的准确性和深度(虽然AI的“推理”和人类有一定差异)。 模型在进行推理时,会以易于理解的方式展示思考过程的概要。Anthropic解释说,这种方式不仅友好,也能保护其技术上的竞争优势。 此外,这些模型还能同时调用多个工具(例如搜索引擎),并在工具调用和自身推理之间切换,以进一步提高答案质量。Claude 4还具备“记忆”功能,能提取并保存信息,更稳定地完成任务,逐渐积累Anthropic所称的“隐性知识”(tacit knowledge)。 面向开发者的强化工具Claude Code 为了方便开发者更好地利用新模型,Anthropic推出了针对程序员的升级版Claude Code工具: - Claude Code现已支持与主流集成开发环境(IDE)进行整合。 - 新增Claude Code SDK,可以作为子进程运行在主流操作系统上,便于开发者创建更强大的AI编程助手和工具。 - Claude Code已发布针对微软VS Code、JetBrains以及GitHub的插件和连接器。其中GitHub连接器可用于回复代码审阅意见、修复错误或修改代码。 AI生成代码现状与未来 尽管AI生成代码的能力尚有不足,容易产生安全漏洞和逻辑错误,但其提高生产效率的潜力仍然驱动公司与开发者快速采纳这些工具。 Anthropic清楚认识到这一挑战,并承诺未来将加快模型迭代速度:“我们正转向更频繁的模型更新节奏,不断为客户带来突破性能力,使用户始终处于技术的最前沿。”
2025-05-31 09:26:20
2025-05-29 07:33:16