indigo
1周前
Capybara 是 Claude 下一代全新旗舰层级,Mythos 是它的代号,能力比 Opus 4.6 有阶跃式提升,网络安全能力尤其突出到让 Anthropic 自己都担心——是目前已知最接近 AGI 级别安全风险的商业模型。 3月26日,Anthropic 因 CMS(内容管理系统)配置错误,意外将约 3000 个未发布资产(包括一篇草稿博客)暴露在公开可搜索的数据缓存中。两位网络安全研究员(LayerX Security 的 Roy Paz + 剑桥大学的 Alexandre Pauwels)独立发现,Fortune 独家报道。Anthropic 被通知后迅速关闭了访问权限。 关于 Capybara / Mythos: - Capybara 是 Anthropic 创建的全新模型层级,比现有 Opus 系列更大、更强、更贵——也就是说,未来的产品线将是 Haiku / Sonnet / Opus / Capybara(四级); - Claude Mythos 是基于 Capybara 训练出来的具体模型,草稿博客称其为「迄今为止我们开发的最强 AI 模型,没有之一」; - 对比 Opus 4.6,Capybara 在代码、学术推理、网络安全等测试中「得分大幅提升」; - Anthropic 确认:这是「能力上的阶跃式变化」 最大的发布顾虑:网络安全风险!草稿博客中 Anthropic 自己写道: - 该模型「在网络安全能力上目前远超任何其他 AI 模型」 - 它「预示着即将到来的一波 AI 模型,其漏洞利用能力将远超防御者的努力」 - 因此发布策略极为谨慎:优先向网络安全防御机构提供早期访问权限,让防御者提前「给代码库打疫苗」
卡颂
1周前
和朋友聊到“前端目录结构重构”话题,出现个很有意思的观念分歧。 他是资深的工程师,他的做法是:根据自己的经验定义一套目录结构规范,后续 Agent 基于这套规范来重构。 可以认为,这是结对编程的 Vibe Coding 流派。 我的思路是:我认为未来 100% 代码会由 AI 来写,那“好的目录结构”应该指“对 Agent 检索友好的结构”而不是“对人类检索友好的结构”。 于是,我让 Agent 生成 4 套“以 Agent 为受众的目录结构”,再生成 60 条 测试用例,每条用例包括: - 一个开发中会问的问题 - 问题的答案 比如: - 问题:如果要新增一个全局复用的空状态组件,应该先放在哪类目录,而不是塞进某个 feature 里? - 答案:回答应优先定位到共享 UI 或共享反馈能力,而不是任何单一业务 feature 。若回答把全局复用组件放进学生、学校等具体业务目录,则不算正确 验收标准包括 3 个维度: - 首跳成功率:面对一个自然语言问题,agent 第一反应是否先进入最合理的目录/文件类别 - 收敛成本:从首跳到找到关键文件,需要多大的搜索范围和多少绕路 - 边界判断:能否正确区分相邻层的职责 Agent 先基于 4 套方案并行跑 4 份重构,再为 5 个环境(4个重构 + 1个原始结构)跑用例打分,最后选分高的。 最终分最高的方案仅仅是「在原始架构上强化了二级目录治理」,比如 components 下再按类型细分为: - page - ui - feedback 整个过程 Agent 跑了 4 个小时,花了 100刀。这就是 Agent First 的 Harness Engineering 流派。 你更看好哪种观念?