#Anthropic

塑造全球 AI 格局的,不只是技术路线之争,还有一段从未愈合的私人创伤。 WSJ 记者 Keach Hagey 发表长篇调查报道,通过对两家公司现任和前员工及高管身边人的大量采访,首次系统披露 Anthropic 与 OpenAI 创始人之间延续十年的个人恩怨。 Dario Amodei 近几个月在内部的措辞远比公开场合激烈。他将 Sam Altman 与 Elon Musk 的法律纠纷比作「希特勒对斯大林之争」,称 OpenAI 总裁 Greg Brockman 向亲特朗普超级政治行动委员会捐款 2500 万美元是「邪恶的」(evil),将 OpenAI 及其他竞争对手比作「明知有害仍兜售产品的烟草公司」。 五角大楼争端升级后,他又在 Slack 上称 OpenAI「虚伪」(mendacious),写道「这些事实表明一种我在 Sam Altman 身上屡见不鲜的行为模式」。Anthropic 内部将这套品牌策略称为打造竞争对手的「健康替代品」(healthy alternative),今年超级碗期间一则未点名讽刺 OpenAI 在聊天机器人中嵌入广告的广告,便是其公开化的产物。 故事的起点是 2016 年旧金山 Delano 大街一栋合租房的客厅。Dario 与妹妹 Daniela Amodei 住在这里,OpenAI 联合创始人 Brockman 因与 Daniela 的私交常来串门。一天,Brockman、Dario 和 Daniela 当时的未婚夫、有效利他主义慈善家 Holden Karnofsky 坐在一起争论 AI 的正确发展路径:Brockman 认为应当告知全体美国人 AI 前沿正在发生什么,Dario 和 Karnofsky 则认为敏感信息应先报告政府而非向公众广播。这一分歧日后成为两家公司哲学路线的分水岭。 被 OpenAI 的人才阵容打动后,Dario 于 2016 年中加入,与 Brockman 熬夜训练 AI 智能体玩电子游戏。但共事四年,矛盾围绕权力与归属感不断加深。2017 年,当时 OpenAI 的主要出资人 Musk 要求列出每位员工的贡献并据此裁员,约 60 人的团队中有 10% 至 20% 被逐一解雇,Dario 视之为残忍,被裁者中有一人后来成为 Anthropic 联合创始人。同年,Dario 聘请的伦理顾问提出让 OpenAI 充当 AI 公司与政府间的协调实体,Brockman 从中引申出「将 AGI 出售给联合国安理会核大国」的设想,Dario 认为这近乎叛国,一度考虑辞职。 2018 年 Musk 退出后 Altman 接手领导。他与 Dario 达成共识:员工对 Brockman 和首席科学家 Ilya Sutskever 的领导缺乏信心。Dario 以两人不再主管为条件留下,但很快发现 Altman 同时向后两者承诺他们有权解雇自己,两个承诺互相矛盾。 GPT 系列研发启动后,围绕谁能参与语言模型项目,高管层爆发了最激烈的冲突。时任研究总监的 Dario 不允许 Brockman 染指,与 Alec Radford 共同领导该项目的 Daniela 以辞去负责人来要挟,Radford 的个人意愿被卷入高管间的代理人战争。Dario 的资历随 GPT-2 和 GPT-3 的成功水涨船高,但他觉得 Altman 淡化了自己的贡献。Brockman 上播客谈论 OpenAI 章程时,Dario 因对章程贡献更大却未被邀请而愤怒;得知 Brockman 和 Altman 要去见前总统奥巴马却把自己排除在外,他同样不满。 矛盾在一次会议室对峙中彻底激化。Altman 将 Amodei 兄妹叫进会议室,指控他们鼓动同事向董事会提交对自己的负面反馈。两人否认。Altman 说消息来自另一位高管,Daniela 当场把那位高管叫来对质,对方说完全不知情。Altman 随即否认自己说过这番话,双方激烈争吵。2020 年初 Altman 要求高管互写同行评审,Brockman 写了一份措辞强硬的反馈指控 Daniela 滥用权力、用官僚流程排除异己,Altman 事先过目评价「tough but fair」。Daniela 逐条反驳,争论升级到 Brockman 一度提出撤回评语。 2020 年底,以 Dario 为核心的团队决定出走,由 Daniela 主导与律师谈判离职事宜。Altman 亲赴 Dario 家中挽留,Dario 提出只接受直接向董事会汇报,并明确表示无法与 Brockman 共事。离职前他写了一份长备忘录,将 AI 公司分为「市场型」和「公共利益型」两类,认为理想配比是 75% 公共利益、25% 市场。数周后,Dario、Daniela 及近十二名员工离开 OpenAI,创立 Anthropic。 五年后的今天,两家公司估值均超 3000 亿美元,正竞相抢先 IPO。今年 2 月新德里 AI 峰会闭幕合影时,印度总理莫迪与在场科技领袖高举双手,Amodei 和 Altman 选择不参与,只是尴尬地碰了碰手肘。
indigo
2天前
Capybara 是 Claude 下一代全新旗舰层级,Mythos 是它的代号,能力比 Opus 4.6 有阶跃式提升,网络安全能力尤其突出到让 Anthropic 自己都担心——是目前已知最接近 AGI 级别安全风险的商业模型。 3月26日,Anthropic 因 CMS(内容管理系统)配置错误,意外将约 3000 个未发布资产(包括一篇草稿博客)暴露在公开可搜索的数据缓存中。两位网络安全研究员(LayerX Security 的 Roy Paz + 剑桥大学的 Alexandre Pauwels)独立发现,Fortune 独家报道。Anthropic 被通知后迅速关闭了访问权限。 关于 Capybara / Mythos: - Capybara 是 Anthropic 创建的全新模型层级,比现有 Opus 系列更大、更强、更贵——也就是说,未来的产品线将是 Haiku / Sonnet / Opus / Capybara(四级); - Claude Mythos 是基于 Capybara 训练出来的具体模型,草稿博客称其为「迄今为止我们开发的最强 AI 模型,没有之一」; - 对比 Opus 4.6,Capybara 在代码、学术推理、网络安全等测试中「得分大幅提升」; - Anthropic 确认:这是「能力上的阶跃式变化」 最大的发布顾虑:网络安全风险!草稿博客中 Anthropic 自己写道: - 该模型「在网络安全能力上目前远超任何其他 AI 模型」 - 它「预示着即将到来的一波 AI 模型,其漏洞利用能力将远超防御者的努力」 - 因此发布策略极为谨慎:优先向网络安全防御机构提供早期访问权限,让防御者提前「给代码库打疫苗」
因为我翻译过这位大佬几次,X就会推送 一贯的又快又有质量的评论,不是AI瞎分析 翻译: Anthropic 在打造类似 OpenClaw 这类产品上的推进速度,已经超过了 OpenAI。 OpenClaw 证明了一件整个 AI 行业一直在设想的事:真正理想的 AI Agent,不该只存在于云端,而应该直接运行在你的个人电脑上;同时,你还应当能够无论身在何处,都能远程调用它。 它在 GitHub 上拿下了 31.8 万星标,随后 Steinberger 加入 OpenAI,准备把这套思路产品化、规模化。 但从那之后,OpenAI 交出的成果并不算完整。Codex 只是一个桌面端编程代理,缺少手机远程操控能力;ChatGPT Agent 则运行在 OpenAI 云端的远程虚拟机里,根本看不到你电脑里的本地文件。 现在已经有开发者在 Codex 的 GitHub 仓库里公开提需求,希望实现“手机控制桌面代理”。而第三方开发者更是已经先行动手,做出了 Taskdex 和 Remote Codetrol,靠中继服务器和 Tailscale 隧道来弥补这个缺口。 Anthropic 则直接原生补上了这一块。 他们推出的 Dispatch,可以让你的手机与 Claude Desktop 配对,你无论身处何地都能给 Cowork 下达任务,回来时工作就已经做好了。 实际上,Cowork 本来就已经具备了一整套关键能力:在本机运行虚拟机、访问完整文件系统、操控浏览器、协调多个子代理,以及用 Markdown 管理技能系统。Dispatch 的意义就在于,它补齐了最后一环,让整套系统真正变成一个可以“装进口袋、随时调度”的个人 AI 工作平台。 这也是为什么它能做到云端 Agent 做不到的事:Cowork 直接面对的是你真实的电脑环境——你的文件、你的浏览器、你已经登录并连接好的工具都在那里。 比如我让它把本地表格和竞争对手网页上的定价做交叉比对,它能立刻完成,因为表格和浏览器都在同一台机器上。 换成云端 Agent,你往往得先上传文件,不但丢失原本的文件路径和上下文,甚至它依旧无法访问你本机中已经连接好的 Slack 或 Google Drive。 这里的关键不只是“能不能运行”,而是“上下文是否真实完整”,而本地机器天然拥有这种真实性。 我自己从 Cowork 发布起就一直在用。 每天早晨,在孩子醒来之前,我会先派发五项任务:研究简报、竞品分析、文件整理、从本地表格里提取数据,以及文稿润色。 原本需要 90 分钟亲自处理的工作,现在压缩成 10 分钟布置任务,再花 20 分钟审阅结果。 Dispatch 改变的不是某一个功能,而是整天的工作节奏:哪怕我人在外面,突然想到一件事,也能立刻用手机发给 Cowork,等回到家时,结果已经准备好了。 更让 OpenAI 难受的地方在于:Anthropic 根本不需要收购 OpenClaw,也不需要挖来 Steinberger,照样把这套东西做出来。 因为他们本来就已经在独立建设同样的架构。 早在 1 月 Cowork 上线时,它就已经具备本地虚拟机执行、文件系统访问和 Markdown 技能体系,而那时 OpenClaw 甚至还没真正火起来。 Steinberger 只是证明了市场需求存在,而 Anthropic 早就把对应的产品供给做好了。 换句话说,OpenAI 挖走了设计师,但真正的设计图,似乎早就留在 Anthropic 那边了。
你知道Scale AI么? Scale AI 是一家美国人工智能基础设施公司,主要做一件事: 为AI模型提供训练数据和数据处理平台。 很多人以为AI公司主要做模型,比如 OpenAI、Anthropic、Google DeepMind。 但在AI产业链里,还有一个关键环节:数据。 AI模型训练离不开三样东西: 算力 算法 数据 Scale AI 就是专门解决第三件事的公司。 ⸻ 一、Scale AI 在做什么 简单说,它是 AI训练数据的“工厂+平台”。 例如: 自动驾驶公司需要训练模型识别 行人 红绿灯 车道线 交通标志 这些原始视频数据必须有人或工具去标注。 Scale AI 提供的就是: 数据标注 数据清洗 数据管理 训练数据平台 客户包括: OpenAI Meta Microsoft Uber Waymo 美国国防部 因此它常被称为: AI产业链里的“隐形基础设施”。 ⸻ 二、为什么 Scale AI 崛起 主要有四个原因。 1 AI爆发后,数据需求指数级增长 GPT、自动驾驶、机器人、军事AI都需要大量高质量数据。 问题在于: AI公司会写模型 却不擅长处理海量数据。 Scale AI 把这一环标准化,变成 SaaS + 服务。 ⸻ 2 建立了全球数据劳动力网络 Scale AI 在全球建立了一支巨大的“数据劳动力”。 几十万标注人员 遍布: 菲律宾 印度 非洲 拉美 他们负责: 图像标注 视频标注 文本标注 RLHF训练 这让 Scale AI 成为 AI训练的后勤系统。 ⸻ 3 提供自动化数据平台 Scale AI 并不只是人工标注。 它还开发了: 自动标注工具 数据质量评估系统 训练数据管理平台 很多AI公司直接在 Scale 的平台上完成数据流程。 ⸻ 4 抓住了政府AI军备需求 近年来一个关键增长来自: 美国国防部。 Scale AI 为军方提供: 无人机视觉训练数据 情报分析模型数据 战场AI系统训练 这让它成为: AI+国防的重要供应商。 ⸻ 三、为什么 Scale AI 估值暴涨 公司成立:2016 创始人:Alexandr Wang(19岁创业) 目前估值曾达到: 70亿到130亿美元级别 原因是它卡在一个非常关键的位置: AI产业链结构: 算力层 NVIDIA 模型层 OpenAI Anthropic Google 数据层 Scale AI 这三层缺一不可。 ⸻ 四、为什么很多中国人进不去 有几个现实原因。 1 安全审查 Scale AI 大量客户来自: 美国军方 政府机构 因此很多岗位需要: 美国身份 安全许可 非美国身份很难进入核心团队。 ⸻ 2 地缘政治 AI已经变成战略技术。 美国政府对: AI 芯片 数据 都有严格限制。 中国背景的候选人通常会被更严格审查。 ⸻ 3 公司文化和网络 Scale AI 很多员工来自: Stanford MIT Berkeley 创始团队和投资人几乎都在硅谷核心圈。 招聘很多来自: 内部推荐 硅谷社交网络 这本身就有门槛。 ⸻ 4 数据安全问题 AI训练数据里可能包含: 军事 医疗 地理 安全信息 因此公司对员工背景非常敏感。 ⸻ 五、Scale AI 的真正价值 很多人以为它只是“标注公司”。 其实它正在做更大的事情: AI数据操作系统(Data OS)。 未来AI开发流程可能是: 数据采集 数据管理 数据训练 模型评估 都在一个平台上完成。 Scale AI 将会是: AI时代的数据基础设施。
早上读了Anthropic 在 2026 年 3 月发布的研究笔记 《Labor market impacts of AI: A new measure and early evidence》有点意思。 Anthropic是Claude的母公司,也是头部AI厂商了,手里有Claude的所有数据。这次的报告计算逻辑是通过Claude 流量里出现了足够多的、与工作相关的使用,理论上可行的任务才会被算作“covered”,所以数据应该比较准确。 这个报告重点聚焦在AI 到底有没有开始真正冲击就业这个点上,毕竟”AI焦虑“这个词已经全球范围内持续很久了,但到底落地了多少呢? 文章提出了一个新的指标暴露度 (Observed Exposure)用来衡量AI在对真实职场的渗透情况,涵盖理论能力 + 真实使用数据 + 是否用于工作场景 + 是增强还是自动化,这对于量化AI对现实生活的冲击更有效,也在一定程度上可以让我们更好的判断AI技术革命走到哪里了。 研究发现在最容易受到 AI 影响的职业 中,从业者更可能是 年龄较大、女性、受教育程度更高、收入更高的群体。 从报告里最直观的图看,目前理论上AI能覆盖(冲击)的范围与实际上形成的范围还是有不小差距的,暴露的蓝色范围内还没有形成系统性失业率上升,只是年轻人进入这些岗位的招聘似乎有一点变慢。 当前最暴露的职业 主要集中在白领、信息处理、软件和分析类岗位。文中列出的前十包括: Computer programmers:74.5% Customer service representatives:70.1% Data entry keyers:67.1% Medical record specialists:66.7% Market research analysts and marketing specialists:64.8% Financial and investment analysts:57.2% 另外还有软件测试、信息安全、用户支持等岗位也排得很前。相反,约 30% 的工人处于“零暴露”组,典型例子包括厨师、摩托车维修工、救生员、酒保、洗碗工等。 这也正常,AI 的能力像洪水,落地像修水渠,在具身机器人举得巨大进展之前,蓝领比白领更不用焦虑。 我们这代人是幸运的,能经历互联网,移动互联网,区块链,AI,机器人等多次技术革命,不过也是不幸的,如果没有能跟上如此高速的进步,未来或许真的也就慢慢成为科幻作品中被“圈养”的那批人了。 Morning,新的努力一天开始了 原文传送门:
meng shao
4个月前
[Anthropic 工程博客] 构建长运行智能体的高效框架 Anthropic 最新工程博客探讨了如何为长运行智能体设计有效的“框架”,以应对复杂任务在多会话间的持续执行挑战。基于 Claude Agent SDK 实际经验,强调通过结构化环境和渐进式工作流程,让智能体像人类软件工程师一样,逐步推进项目,而非试图一蹴而就。 长运行智能体的核心挑战 长运行智能体目标是处理跨小时或数天的复杂任务,例如构建一个完整复杂的软件项目。但由于上下文窗口的容量限制,每个会话都像从零开始:智能体缺乏先前记忆,容易陷入“一次性完成”的陷阱——试图在单一会话中搞定整个项目,导致上下文耗尽、代码杂乱或文档缺失。其他常见问题包括: · 过早宣告完成:后续智能体看到部分进展,就错误地标记任务结束。 · 状态恢复困难:智能体花大量时间猜测未完成工作,或在 buggy 环境中挣扎。 · 测试缺失:功能看似就位,但未通过端到端验证,隐藏潜在问题。 通过实验(如构建 200+ 功能的网页克隆项目)总结这些失败模式,并提供针对性解决方案,借鉴软件工程最佳实践,如 Git 版本控制和自动化测试。 提出的解决方案:双智能体框架与结构化环境 解决方案是引入“框架”——一个由提示、脚本和文件组成的系统,确保会话间状态持久化和干净交接。具体分为两个角色: 1. 初始化智能体(Initializer Agent):仅用于首轮会话,负责搭建初始环境。生成关键文件,包括: · feature_list.json:一个JSON格式的功能清单,列出所有任务(如“创建新聊天”),每个包含描述、步骤和初始“passes”状态(false)。JSON格式确保不可变性,防止后续编辑。 · claude-progress.txt:日志文件,记录动作和进展。 · init. sh:启动脚本,用于运行开发服务器、测试基础功能,减少后续设置开销。 初始化后,进行首次 Git 提交,形成干净基线。 2. 编码智能体(Coding Agent):后续会话专用,专注于渐进式进展。每个会话仅处理一个功能: · 会话启动例程:检查目录(pwd)、审阅 Git 日志和进展文件、运行 init. sh 启动环境、验证核心测试。 · 工作流程:从 JSON 清单选一未完成功能,编码、提交描述性 Git 变更、更新 “passes” 状态(仅在通过测试后),并记录日志。 · 强调“干净状态”(clean state):结束时,代码须无bug、文档齐全、可直接合并到主分支。 关键实践与工具集成 · 功能清单与 Git:JSON 清单防止“过早完成”,Git 提供回滚和历史追踪。实验显示,相比 Markdown,JSON 减少了不当修改。 · 端到端测试:集成浏览器自动化工具(如 Puppeteer MCP 服务器),模拟人类操作(如点击模态框、截图验证)。这捕捉代码审查忽略的交互 bug,但文章也指出局限,如原生浏览器元素的处理。 · 提示策略:初始化和编码提示不同——前者聚焦搭建,后者强调单一功能和验证。使用强约束语言(如“绝不编辑测试”)规避失败。 · 失败模式表格:文章附表总结问题(如“设置混淆”)及应对(如标准化脚本),便于实际应用。 结论与展望 Anthropic 的经验证明,这种框架能显著提升长运行智能体的可靠性:从混乱的“一击即溃”转向工程化的持续迭代。关键启示是借用人类工程实践(如版本控制、测试驱动开发),结合 AI 的自动化潜力。从简单项目起步,审视失败模式,并扩展到多智能体系统(如专职测试智能体)。未来方向可以泛化到其他领域,如科学研究或财务建模,探索更复杂的协作架构。 博客地址: