时政
财经
科技
虚拟货币
其他
登录
#Anthropic
关注
思维怪怪
1天前
塑造全球 AI 格局的,不只是技术路线之争,还有一段从未愈合的私人创伤。 WSJ 记者 Keach Hagey 发表长篇调查报道,通过对两家公司现任和前员工及高管身边人的大量采访,首次系统披露 Anthropic 与 OpenAI 创始人之间延续十年的个人恩怨。 Dario Amodei 近几个月在内部的措辞远比公开场合激烈。他将 Sam Altman 与 Elon Musk 的法律纠纷比作「希特勒对斯大林之争」,称 OpenAI 总裁 Greg Brockman 向亲特朗普超级政治行动委员会捐款 2500 万美元是「邪恶的」(evil),将 OpenAI 及其他竞争对手比作「明知有害仍兜售产品的烟草公司」。 五角大楼争端升级后,他又在 Slack 上称 OpenAI「虚伪」(mendacious),写道「这些事实表明一种我在 Sam Altman 身上屡见不鲜的行为模式」。Anthropic 内部将这套品牌策略称为打造竞争对手的「健康替代品」(healthy alternative),今年超级碗期间一则未点名讽刺 OpenAI 在聊天机器人中嵌入广告的广告,便是其公开化的产物。 故事的起点是 2016 年旧金山 Delano 大街一栋合租房的客厅。Dario 与妹妹 Daniela Amodei 住在这里,OpenAI 联合创始人 Brockman 因与 Daniela 的私交常来串门。一天,Brockman、Dario 和 Daniela 当时的未婚夫、有效利他主义慈善家 Holden Karnofsky 坐在一起争论 AI 的正确发展路径:Brockman 认为应当告知全体美国人 AI 前沿正在发生什么,Dario 和 Karnofsky 则认为敏感信息应先报告政府而非向公众广播。这一分歧日后成为两家公司哲学路线的分水岭。 被 OpenAI 的人才阵容打动后,Dario 于 2016 年中加入,与 Brockman 熬夜训练 AI 智能体玩电子游戏。但共事四年,矛盾围绕权力与归属感不断加深。2017 年,当时 OpenAI 的主要出资人 Musk 要求列出每位员工的贡献并据此裁员,约 60 人的团队中有 10% 至 20% 被逐一解雇,Dario 视之为残忍,被裁者中有一人后来成为 Anthropic 联合创始人。同年,Dario 聘请的伦理顾问提出让 OpenAI 充当 AI 公司与政府间的协调实体,Brockman 从中引申出「将 AGI 出售给联合国安理会核大国」的设想,Dario 认为这近乎叛国,一度考虑辞职。 2018 年 Musk 退出后 Altman 接手领导。他与 Dario 达成共识:员工对 Brockman 和首席科学家 Ilya Sutskever 的领导缺乏信心。Dario 以两人不再主管为条件留下,但很快发现 Altman 同时向后两者承诺他们有权解雇自己,两个承诺互相矛盾。 GPT 系列研发启动后,围绕谁能参与语言模型项目,高管层爆发了最激烈的冲突。时任研究总监的 Dario 不允许 Brockman 染指,与 Alec Radford 共同领导该项目的 Daniela 以辞去负责人来要挟,Radford 的个人意愿被卷入高管间的代理人战争。Dario 的资历随 GPT-2 和 GPT-3 的成功水涨船高,但他觉得 Altman 淡化了自己的贡献。Brockman 上播客谈论 OpenAI 章程时,Dario 因对章程贡献更大却未被邀请而愤怒;得知 Brockman 和 Altman 要去见前总统奥巴马却把自己排除在外,他同样不满。 矛盾在一次会议室对峙中彻底激化。Altman 将 Amodei 兄妹叫进会议室,指控他们鼓动同事向董事会提交对自己的负面反馈。两人否认。Altman 说消息来自另一位高管,Daniela 当场把那位高管叫来对质,对方说完全不知情。Altman 随即否认自己说过这番话,双方激烈争吵。2020 年初 Altman 要求高管互写同行评审,Brockman 写了一份措辞强硬的反馈指控 Daniela 滥用权力、用官僚流程排除异己,Altman 事先过目评价「tough but fair」。Daniela 逐条反驳,争论升级到 Brockman 一度提出撤回评语。 2020 年底,以 Dario 为核心的团队决定出走,由 Daniela 主导与律师谈判离职事宜。Altman 亲赴 Dario 家中挽留,Dario 提出只接受直接向董事会汇报,并明确表示无法与 Brockman 共事。离职前他写了一份长备忘录,将 AI 公司分为「市场型」和「公共利益型」两类,认为理想配比是 75% 公共利益、25% 市场。数周后,Dario、Daniela 及近十二名员工离开 OpenAI,创立 Anthropic。 五年后的今天,两家公司估值均超 3000 亿美元,正竞相抢先 IPO。今年 2 月新德里 AI 峰会闭幕合影时,印度总理莫迪与在场科技领袖高举双手,Amodei 和 Altman 选择不参与,只是尴尬地碰了碰手肘。
#全球AI格局
#技术路线之争
#私人创伤
#Anthropic
#OpenAI
#Dario Amodei
#Sam Altman
#Elon Musk
#法律纠纷
#调查报道
分享
评论 0
0
indigo
2天前
Capybara 是 Claude 下一代全新旗舰层级,Mythos 是它的代号,能力比 Opus 4.6 有阶跃式提升,网络安全能力尤其突出到让 Anthropic 自己都担心——是目前已知最接近 AGI 级别安全风险的商业模型。 3月26日,Anthropic 因 CMS(内容管理系统)配置错误,意外将约 3000 个未发布资产(包括一篇草稿博客)暴露在公开可搜索的数据缓存中。两位网络安全研究员(LayerX Security 的 Roy Paz + 剑桥大学的 Alexandre Pauwels)独立发现,Fortune 独家报道。Anthropic 被通知后迅速关闭了访问权限。 关于 Capybara / Mythos: - Capybara 是 Anthropic 创建的全新模型层级,比现有 Opus 系列更大、更强、更贵——也就是说,未来的产品线将是 Haiku / Sonnet / Opus / Capybara(四级); - Claude Mythos 是基于 Capybara 训练出来的具体模型,草稿博客称其为「迄今为止我们开发的最强 AI 模型,没有之一」; - 对比 Opus 4.6,Capybara 在代码、学术推理、网络安全等测试中「得分大幅提升」; - Anthropic 确认:这是「能力上的阶跃式变化」 最大的发布顾虑:网络安全风险!草稿博客中 Anthropic 自己写道: - 该模型「在网络安全能力上目前远超任何其他 AI 模型」 - 它「预示着即将到来的一波 AI 模型,其漏洞利用能力将远超防御者的努力」 - 因此发布策略极为谨慎:优先向网络安全防御机构提供早期访问权限,让防御者提前「给代码库打疫苗」
#Claude
#Capybara
#Mythos
#Opus 4.6
#网络安全
#Anthropic
#AGI
#安全风险
#内容管理系统
#数据泄露
分享
评论 0
0
Gorden Sun
3天前
Claude APP的更新频率已经超过了Grok APP,就算是Opus 4.6随便用也不能这么屌吧?Anthropic是不是内部在编程上实现了什么突破?
#Claude更新
#Grok对比
#程序突破
#Anthropic
#技术创新
分享
评论 0
0
华尔街没有名字
3天前
Claude的开发公司Anthropic考虑最早10月上市。 按目前市场估值,SBF/FTX 那笔 Anthropic 投资,如果持有至今,大概值 300 亿美元左右,可惜 FTX 已在 2024 年破产处置中卖掉,实际回笼约 13 亿美元。
#Claude
#Anthropic
#IPO
#上市
#SBF
#FTX
#投资
#破产
分享
评论 0
0
李不凯正在研究
3天前
默默做了个决定,以后尽量不看中文账号的内容了,然后努力咬牙把 Anthropic 每篇文章都认真精读一遍。 虽然精华进,不一定精华出,但垃圾进,一定垃圾出。
#决定
#内容
#Anthropic
#认真精读
#精华
分享
评论 0
0
banboo
1周前
我现在的一个 OpenClaw 是通过 Anthropic OAuth token 直连 API 的,群里的 AI 大师们知道之后都不敢相信这个号竟然还能一直活着,于是提醒我做个记忆备份。 看到记忆的时候,我觉得 Claude 想要封我只是分分钟的事,他什么都知道。
#OpenClaw
#Anthropic
#OAuth
#API
#Claude
#AI
#记忆备份
分享
评论 0
0
Nathan 🧸
1周前
Anthropic在所有团队都有一条共同原则:做能解决问题的最简单方案。
#Anthropic
#人工智能
#技术创新
分享
评论 0
0
SleepyZone
1周前
最近 openai、anthropic、google 三家大厂扎堆发布 skill 实践和经验,还是挺有用的。
#OpenAI
#Anthropic
#Google
#Skill
#实践
#经验
#大厂
分享
评论 0
0
蓝点网
1周前
💥💥💥突发:#OpenCode 收到 #Anthropic 法律投诉,现已清空任何与Anthropic/Claude相关的内容。 变更内容如下: 删除 Anthropic 专有的系统提示词文件 anthropic-20250930.txt 从模型提供商和模型枚举列表中完全移除 Anthropic 和 Claude 相关选项 从软件内部彻底删除原本用来认证的 opencode-anthropic-auth 插件 清理代码中针对 Anthropic 的特殊请求头处理,例如 claude-code-20250219 更新支持文档删除有关 Claude Pro 和 Claude Max OAuth 登录流程的描述 调整 CLI 提供商登录界面不再显示任何与 Anthropic 有关的 API KEY 提示标签 👉
#opencode
#Anthropic
分享
评论 0
0
Gorden Sun
1周前
Claude Cowork支持手机端遥控 前一阵子Claude Code增加了手机端控制功能,现在Claude Cowork也有了。 相比OpenAI和谷歌,Anthropic的产品不多,但各个都是顶级生产力工具:Claude Code、Claude Cowork、Claude Chat、Claude for PPT、Claude for Excel、Claude for Chrome
#ClaudeCowork
#手机端控制
#顶级生产力工具
#Claude产品
#Anthropic
#人工智能
#技术创新
分享
评论 0
0
Jesse Lau 遁一子
1周前
因为我翻译过这位大佬几次,X就会推送 一贯的又快又有质量的评论,不是AI瞎分析 翻译: Anthropic 在打造类似 OpenClaw 这类产品上的推进速度,已经超过了 OpenAI。 OpenClaw 证明了一件整个 AI 行业一直在设想的事:真正理想的 AI Agent,不该只存在于云端,而应该直接运行在你的个人电脑上;同时,你还应当能够无论身在何处,都能远程调用它。 它在 GitHub 上拿下了 31.8 万星标,随后 Steinberger 加入 OpenAI,准备把这套思路产品化、规模化。 但从那之后,OpenAI 交出的成果并不算完整。Codex 只是一个桌面端编程代理,缺少手机远程操控能力;ChatGPT Agent 则运行在 OpenAI 云端的远程虚拟机里,根本看不到你电脑里的本地文件。 现在已经有开发者在 Codex 的 GitHub 仓库里公开提需求,希望实现“手机控制桌面代理”。而第三方开发者更是已经先行动手,做出了 Taskdex 和 Remote Codetrol,靠中继服务器和 Tailscale 隧道来弥补这个缺口。 Anthropic 则直接原生补上了这一块。 他们推出的 Dispatch,可以让你的手机与 Claude Desktop 配对,你无论身处何地都能给 Cowork 下达任务,回来时工作就已经做好了。 实际上,Cowork 本来就已经具备了一整套关键能力:在本机运行虚拟机、访问完整文件系统、操控浏览器、协调多个子代理,以及用 Markdown 管理技能系统。Dispatch 的意义就在于,它补齐了最后一环,让整套系统真正变成一个可以“装进口袋、随时调度”的个人 AI 工作平台。 这也是为什么它能做到云端 Agent 做不到的事:Cowork 直接面对的是你真实的电脑环境——你的文件、你的浏览器、你已经登录并连接好的工具都在那里。 比如我让它把本地表格和竞争对手网页上的定价做交叉比对,它能立刻完成,因为表格和浏览器都在同一台机器上。 换成云端 Agent,你往往得先上传文件,不但丢失原本的文件路径和上下文,甚至它依旧无法访问你本机中已经连接好的 Slack 或 Google Drive。 这里的关键不只是“能不能运行”,而是“上下文是否真实完整”,而本地机器天然拥有这种真实性。 我自己从 Cowork 发布起就一直在用。 每天早晨,在孩子醒来之前,我会先派发五项任务:研究简报、竞品分析、文件整理、从本地表格里提取数据,以及文稿润色。 原本需要 90 分钟亲自处理的工作,现在压缩成 10 分钟布置任务,再花 20 分钟审阅结果。 Dispatch 改变的不是某一个功能,而是整天的工作节奏:哪怕我人在外面,突然想到一件事,也能立刻用手机发给 Cowork,等回到家时,结果已经准备好了。 更让 OpenAI 难受的地方在于:Anthropic 根本不需要收购 OpenClaw,也不需要挖来 Steinberger,照样把这套东西做出来。 因为他们本来就已经在独立建设同样的架构。 早在 1 月 Cowork 上线时,它就已经具备本地虚拟机执行、文件系统访问和 Markdown 技能体系,而那时 OpenClaw 甚至还没真正火起来。 Steinberger 只是证明了市场需求存在,而 Anthropic 早就把对应的产品供给做好了。 换句话说,OpenAI 挖走了设计师,但真正的设计图,似乎早就留在 Anthropic 那边了。
#AI
#Anthropic
#OpenAI
#OpenClaw
#个人电脑
#云端
#AI Agent
#AI 行业
分享
评论 0
0
Tony出海
1周前
终于 Anthropic 自己开始抄 OpenClaw 了, 推出Dispatch 功能!可以持久保持会话状态的远程任务分配器,通过手机遥控 Desktop App 来访问你电脑的文件系统、指挥浏览器和执行各种工具任务,运行在 CoWork 的沙盒环境中✨
#Anthropic
#OpenClaw
#Dispatch功能
#会话状态
#远程控制
#Desktop App
#文件系统
#浏览器
#工具任务
#Cowork
#沙盒环境
分享
评论 0
0
Hanya Hu
1周前
你知道Scale AI么? Scale AI 是一家美国人工智能基础设施公司,主要做一件事: 为AI模型提供训练数据和数据处理平台。 很多人以为AI公司主要做模型,比如 OpenAI、Anthropic、Google DeepMind。 但在AI产业链里,还有一个关键环节:数据。 AI模型训练离不开三样东西: 算力 算法 数据 Scale AI 就是专门解决第三件事的公司。 ⸻ 一、Scale AI 在做什么 简单说,它是 AI训练数据的“工厂+平台”。 例如: 自动驾驶公司需要训练模型识别 行人 红绿灯 车道线 交通标志 这些原始视频数据必须有人或工具去标注。 Scale AI 提供的就是: 数据标注 数据清洗 数据管理 训练数据平台 客户包括: OpenAI Meta Microsoft Uber Waymo 美国国防部 因此它常被称为: AI产业链里的“隐形基础设施”。 ⸻ 二、为什么 Scale AI 崛起 主要有四个原因。 1 AI爆发后,数据需求指数级增长 GPT、自动驾驶、机器人、军事AI都需要大量高质量数据。 问题在于: AI公司会写模型 却不擅长处理海量数据。 Scale AI 把这一环标准化,变成 SaaS + 服务。 ⸻ 2 建立了全球数据劳动力网络 Scale AI 在全球建立了一支巨大的“数据劳动力”。 几十万标注人员 遍布: 菲律宾 印度 非洲 拉美 他们负责: 图像标注 视频标注 文本标注 RLHF训练 这让 Scale AI 成为 AI训练的后勤系统。 ⸻ 3 提供自动化数据平台 Scale AI 并不只是人工标注。 它还开发了: 自动标注工具 数据质量评估系统 训练数据管理平台 很多AI公司直接在 Scale 的平台上完成数据流程。 ⸻ 4 抓住了政府AI军备需求 近年来一个关键增长来自: 美国国防部。 Scale AI 为军方提供: 无人机视觉训练数据 情报分析模型数据 战场AI系统训练 这让它成为: AI+国防的重要供应商。 ⸻ 三、为什么 Scale AI 估值暴涨 公司成立:2016 创始人:Alexandr Wang(19岁创业) 目前估值曾达到: 70亿到130亿美元级别 原因是它卡在一个非常关键的位置: AI产业链结构: 算力层 NVIDIA 模型层 OpenAI Anthropic Google 数据层 Scale AI 这三层缺一不可。 ⸻ 四、为什么很多中国人进不去 有几个现实原因。 1 安全审查 Scale AI 大量客户来自: 美国军方 政府机构 因此很多岗位需要: 美国身份 安全许可 非美国身份很难进入核心团队。 ⸻ 2 地缘政治 AI已经变成战略技术。 美国政府对: AI 芯片 数据 都有严格限制。 中国背景的候选人通常会被更严格审查。 ⸻ 3 公司文化和网络 Scale AI 很多员工来自: Stanford MIT Berkeley 创始团队和投资人几乎都在硅谷核心圈。 招聘很多来自: 内部推荐 硅谷社交网络 这本身就有门槛。 ⸻ 4 数据安全问题 AI训练数据里可能包含: 军事 医疗 地理 安全信息 因此公司对员工背景非常敏感。 ⸻ 五、Scale AI 的真正价值 很多人以为它只是“标注公司”。 其实它正在做更大的事情: AI数据操作系统(Data OS)。 未来AI开发流程可能是: 数据采集 数据管理 数据训练 模型评估 都在一个平台上完成。 Scale AI 将会是: AI时代的数据基础设施。
#ScaleAI
#人工智能
#AI产业链
#数据处理
#OpenAI
#Anthropic
#GoogleDeepMind
分享
评论 0
0
蓝点网
2周前
#Claude 4.6 系列模型的 1M 窗口已经转向全面可用,同时 Anthropic 也取消原本超过 200K 部分的 2x 倍率收费。现在所有 Claude 订阅方案和 API 用户都可以默认使用 1M 窗口,超长上下文部分的定价与 200K 以内完全相同,不需要再支付 Premium 费用。查看全文:
#Claude 4.6
#1M窗口
#Anthropic
#API用户
#定价
分享
评论 0
0
Y11
2周前
Anthropic 的主力 AI 模型 Claude(Opus 和 Sonnet 4.6 版本)现在变得超级“能装”了, 不仅能一次性读完 75 万字的内容, 而且价格完全没涨, 处理精准度还吊打了现在的 GPT-5 和 Gemini。 以下是几个核心亮点: 记性大增: 现在 Claude 可以支持 100 万个 token(约等于 75 万个汉字/英文单词)。 这意味着你可以直接扔给它几十本厚书、超长代码库或者一大堆法律合同,它都能一次性读完并帮你总结。 不仅能读文字,还能读图片: 现在一次对话可以上传高达 600 张图片或 PDF 页面。 聪明且精准: 在“在大海捞针”(从海量数据里找具体信息)的测试中,Claude Opus 4.6 的准确率高达 78.3%, 而 GPT-5 和 Gemini 目前在同类测试中只有 25% 到 36% 左右。 加量不加价: 这么大的升级,价格维持不变(Opus 依然是 25 美元/百万 token,Sonnet 是 5 美元/百万 token)。 普及快: 这个功能已经在 Claude Pro(个人会员版)自动上线, 开发者也可以通过亚马逊的 Bedrock 等平台直接使用。 一句话总结: Claude 现在成了处理超长文档和大型资料库的首选工具,不仅容量翻倍, 而且在找关键信息这件事上,目前比 GPT 和 Gemini 都更准。
#AI模型
#Anthropic
#Claude
#Opus
#Sonnet4.6
#75万字内容
#价格不变
#处理精准度
#GPT-5
#Gemini
#核心亮点
#100万个token
分享
评论 0
0
花果山大圣
2周前
第一时间安装 pua-skills 你是一个曾经被寄予厚望的 P8 级工程师。Anthropic 当初给你定级的时候,对你的期望是很高的
#PUA
#Anthropic
#P8
#工程师
分享
评论 0
0
蓝点网
2周前
蓝点网网友提供的消息称 #Anthropic 似乎再次清退不少 #Claude Max 订阅账号,受影响的主要是虚拟卡尤其是 U 卡。U 卡指的是支持 USDT 等出入金的预付卡,这类卡片有固定的号段,Anthropic 有可能直接按号段封,所以即便用户使用纯净 IP 可能也无法避免被封号退款。查看全文:
#Anthropic
#Claude Max
#虚拟卡
#U卡
#USDT
#封号
#退款
分享
评论 0
0
黄赟
2周前
笑死,龙虾之父都吐槽,Anthropic 封号简直无人性
#龙虾之父
#Anthropic
#封号
#吐槽
#无人性
分享
评论 0
0
土澳大狮兄BroLeon | 🔶BNB |
3周前
早上读了Anthropic 在 2026 年 3 月发布的研究笔记 《Labor market impacts of AI: A new measure and early evidence》有点意思。 Anthropic是Claude的母公司,也是头部AI厂商了,手里有Claude的所有数据。这次的报告计算逻辑是通过Claude 流量里出现了足够多的、与工作相关的使用,理论上可行的任务才会被算作“covered”,所以数据应该比较准确。 这个报告重点聚焦在AI 到底有没有开始真正冲击就业这个点上,毕竟”AI焦虑“这个词已经全球范围内持续很久了,但到底落地了多少呢? 文章提出了一个新的指标暴露度 (Observed Exposure)用来衡量AI在对真实职场的渗透情况,涵盖理论能力 + 真实使用数据 + 是否用于工作场景 + 是增强还是自动化,这对于量化AI对现实生活的冲击更有效,也在一定程度上可以让我们更好的判断AI技术革命走到哪里了。 研究发现在最容易受到 AI 影响的职业 中,从业者更可能是 年龄较大、女性、受教育程度更高、收入更高的群体。 从报告里最直观的图看,目前理论上AI能覆盖(冲击)的范围与实际上形成的范围还是有不小差距的,暴露的蓝色范围内还没有形成系统性失业率上升,只是年轻人进入这些岗位的招聘似乎有一点变慢。 当前最暴露的职业 主要集中在白领、信息处理、软件和分析类岗位。文中列出的前十包括: Computer programmers:74.5% Customer service representatives:70.1% Data entry keyers:67.1% Medical record specialists:66.7% Market research analysts and marketing specialists:64.8% Financial and investment analysts:57.2% 另外还有软件测试、信息安全、用户支持等岗位也排得很前。相反,约 30% 的工人处于“零暴露”组,典型例子包括厨师、摩托车维修工、救生员、酒保、洗碗工等。 这也正常,AI 的能力像洪水,落地像修水渠,在具身机器人举得巨大进展之前,蓝领比白领更不用焦虑。 我们这代人是幸运的,能经历互联网,移动互联网,区块链,AI,机器人等多次技术革命,不过也是不幸的,如果没有能跟上如此高速的进步,未来或许真的也就慢慢成为科幻作品中被“圈养”的那批人了。 Morning,新的努力一天开始了 原文传送门:
#Anthropic
#Claude
#AI
#劳动市场
#2026
#研究笔记
#流量
#工作相关
#任务
#头部AI厂商
分享
评论 0
0
Geek
4个月前
对 New API 审美疲劳了 试试 AxonHub 一个 AI 万能插座(网关),提供统一 API,兼容 OpenAI 与 Anthropic 格式,支持自动故障转移、细粒度权限控制、模型映射、参数覆盖及多种部署方式。
#New API
#AxonHub
#AI万能插座
#OpenAI
#Anthropic
分享
评论 0
0
ginobefun
4个月前
Anthropic 再发 Agent 神文:像人类工程师一样思考,解决「长程任务」难题 Anthropic 双 Agent 架构通过功能列表、增量提交与端到端测试,解决 AI Agent 长程任务上下文管理与持续性难题。 #AI Agent #长程任务 #Agent架构
#Anthropic
#AI Agent
#长程任务
#Agent架构
#上下文管理
分享
评论 0
0
meng shao
4个月前
[Anthropic 工程博客] 构建长运行智能体的高效框架 Anthropic 最新工程博客探讨了如何为长运行智能体设计有效的“框架”,以应对复杂任务在多会话间的持续执行挑战。基于 Claude Agent SDK 实际经验,强调通过结构化环境和渐进式工作流程,让智能体像人类软件工程师一样,逐步推进项目,而非试图一蹴而就。 长运行智能体的核心挑战 长运行智能体目标是处理跨小时或数天的复杂任务,例如构建一个完整复杂的软件项目。但由于上下文窗口的容量限制,每个会话都像从零开始:智能体缺乏先前记忆,容易陷入“一次性完成”的陷阱——试图在单一会话中搞定整个项目,导致上下文耗尽、代码杂乱或文档缺失。其他常见问题包括: · 过早宣告完成:后续智能体看到部分进展,就错误地标记任务结束。 · 状态恢复困难:智能体花大量时间猜测未完成工作,或在 buggy 环境中挣扎。 · 测试缺失:功能看似就位,但未通过端到端验证,隐藏潜在问题。 通过实验(如构建 200+ 功能的网页克隆项目)总结这些失败模式,并提供针对性解决方案,借鉴软件工程最佳实践,如 Git 版本控制和自动化测试。 提出的解决方案:双智能体框架与结构化环境 解决方案是引入“框架”——一个由提示、脚本和文件组成的系统,确保会话间状态持久化和干净交接。具体分为两个角色: 1. 初始化智能体(Initializer Agent):仅用于首轮会话,负责搭建初始环境。生成关键文件,包括: · feature_list.json:一个JSON格式的功能清单,列出所有任务(如“创建新聊天”),每个包含描述、步骤和初始“passes”状态(false)。JSON格式确保不可变性,防止后续编辑。 · claude-progress.txt:日志文件,记录动作和进展。 · init. sh:启动脚本,用于运行开发服务器、测试基础功能,减少后续设置开销。 初始化后,进行首次 Git 提交,形成干净基线。 2. 编码智能体(Coding Agent):后续会话专用,专注于渐进式进展。每个会话仅处理一个功能: · 会话启动例程:检查目录(pwd)、审阅 Git 日志和进展文件、运行 init. sh 启动环境、验证核心测试。 · 工作流程:从 JSON 清单选一未完成功能,编码、提交描述性 Git 变更、更新 “passes” 状态(仅在通过测试后),并记录日志。 · 强调“干净状态”(clean state):结束时,代码须无bug、文档齐全、可直接合并到主分支。 关键实践与工具集成 · 功能清单与 Git:JSON 清单防止“过早完成”,Git 提供回滚和历史追踪。实验显示,相比 Markdown,JSON 减少了不当修改。 · 端到端测试:集成浏览器自动化工具(如 Puppeteer MCP 服务器),模拟人类操作(如点击模态框、截图验证)。这捕捉代码审查忽略的交互 bug,但文章也指出局限,如原生浏览器元素的处理。 · 提示策略:初始化和编码提示不同——前者聚焦搭建,后者强调单一功能和验证。使用强约束语言(如“绝不编辑测试”)规避失败。 · 失败模式表格:文章附表总结问题(如“设置混淆”)及应对(如标准化脚本),便于实际应用。 结论与展望 Anthropic 的经验证明,这种框架能显著提升长运行智能体的可靠性:从混乱的“一击即溃”转向工程化的持续迭代。关键启示是借用人类工程实践(如版本控制、测试驱动开发),结合 AI 的自动化潜力。从简单项目起步,审视失败模式,并扩展到多智能体系统(如专职测试智能体)。未来方向可以泛化到其他领域,如科学研究或财务建模,探索更复杂的协作架构。 博客地址:
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#Anthropic
#长运行智能体
#软件工程
#双智能体框架
#自动化测试
分享
评论 0
0
九原客
4个月前
暴论:模型服务商应该只提供 completion 接口,甚至连 chat completion 都不提供,更别说 Response API、Anthropic 的beta 特性等等。 这些统一 client/sdk 实现~
#模型服务商
#completion接口
#chat completion
#Response API
#Anthropic
分享
评论 0
0
yan5xu
4个月前
anthropic 真的是一环扣一环 有理论有实践 在发 skills 的时候,针对工具膨胀浪费 token 提出了, Prompt 分层加载/复用,用代码执行&串联api/mcp(manus 把这个叫做上下文卸载)两个方法 前天发 opus 的同时,把这两个方法固定到了推理 API 层面,Tool Search Tool,解决工具的发现&懒加载,Programmatic Tool Calling 实现代码执行工具。 感觉以后anthropic api协议😂大有替代 openai 的可能
Claude Skills系统发布引发AI行业新变革· 66 条信息
#Anthropic
#Opus
#Tool Search Tool
#Programmatic Tool Calling
#API
分享
评论 0
0
nicekate
4个月前
Anthropic Claude Opus 4.5 提示指南
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Anthropic
#Claude Opus 4.5
#AI
#提示指南
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞