indigo
1周前
Capybara 是 Claude 下一代全新旗舰层级,Mythos 是它的代号,能力比 Opus 4.6 有阶跃式提升,网络安全能力尤其突出到让 Anthropic 自己都担心——是目前已知最接近 AGI 级别安全风险的商业模型。 3月26日,Anthropic 因 CMS(内容管理系统)配置错误,意外将约 3000 个未发布资产(包括一篇草稿博客)暴露在公开可搜索的数据缓存中。两位网络安全研究员(LayerX Security 的 Roy Paz + 剑桥大学的 Alexandre Pauwels)独立发现,Fortune 独家报道。Anthropic 被通知后迅速关闭了访问权限。 关于 Capybara / Mythos: - Capybara 是 Anthropic 创建的全新模型层级,比现有 Opus 系列更大、更强、更贵——也就是说,未来的产品线将是 Haiku / Sonnet / Opus / Capybara(四级); - Claude Mythos 是基于 Capybara 训练出来的具体模型,草稿博客称其为「迄今为止我们开发的最强 AI 模型,没有之一」; - 对比 Opus 4.6,Capybara 在代码、学术推理、网络安全等测试中「得分大幅提升」; - Anthropic 确认:这是「能力上的阶跃式变化」 最大的发布顾虑:网络安全风险!草稿博客中 Anthropic 自己写道: - 该模型「在网络安全能力上目前远超任何其他 AI 模型」 - 它「预示着即将到来的一波 AI 模型,其漏洞利用能力将远超防御者的努力」 - 因此发布策略极为谨慎:优先向网络安全防御机构提供早期访问权限,让防御者提前「给代码库打疫苗」
卡颂
1周前
和朋友聊到“前端目录结构重构”话题,出现个很有意思的观念分歧。 他是资深的工程师,他的做法是:根据自己的经验定义一套目录结构规范,后续 Agent 基于这套规范来重构。 可以认为,这是结对编程的 Vibe Coding 流派。 我的思路是:我认为未来 100% 代码会由 AI 来写,那“好的目录结构”应该指“对 Agent 检索友好的结构”而不是“对人类检索友好的结构”。 于是,我让 Agent 生成 4 套“以 Agent 为受众的目录结构”,再生成 60 条 测试用例,每条用例包括: - 一个开发中会问的问题 - 问题的答案 比如: - 问题:如果要新增一个全局复用的空状态组件,应该先放在哪类目录,而不是塞进某个 feature 里? - 答案:回答应优先定位到共享 UI 或共享反馈能力,而不是任何单一业务 feature 。若回答把全局复用组件放进学生、学校等具体业务目录,则不算正确 验收标准包括 3 个维度: - 首跳成功率:面对一个自然语言问题,agent 第一反应是否先进入最合理的目录/文件类别 - 收敛成本:从首跳到找到关键文件,需要多大的搜索范围和多少绕路 - 边界判断:能否正确区分相邻层的职责 Agent 先基于 4 套方案并行跑 4 份重构,再为 5 个环境(4个重构 + 1个原始结构)跑用例打分,最后选分高的。 最终分最高的方案仅仅是「在原始架构上强化了二级目录治理」,比如 components 下再按类型细分为: - page - ui - feedback 整个过程 Agent 跑了 4 个小时,花了 100刀。这就是 Agent First 的 Harness Engineering 流派。 你更看好哪种观念?
有媒体统计的川普赢学 第1天:我赢了。伊朗,全面胜利。 第2天:我又赢了。人们都不敢相信。 第3天:依然赢。专家说没人能像我这样赢。 第4天:胜利终将到来。假新闻媒体不会报道。 第5天:大家都在谈论我赢了多少比赛。简直难以置信。 第6天:他们说这不可能做到。我一直赢。他们私下里也承认这一点。 第7天:没人想到胜利会是这种胜利。但我知道。 第8天:连我的批评者都说我今天赢了。难以置信。 第9天:赢了这么多比赛,真是累坏了。但我并不觉得累。 第10天:我赢得的比赛比历史上任何人都多。千真万确。 第11天:又一天,又一场胜利。人们都震惊了。 第12天:专家们震惊了。他们无法相信我取得的胜利规模如此之大。 第13天:胜利接踵而至。人人都想要我的策略。 第14天:媒体保持沉默,但我又赢了。他们嫉妒我。 第15天:迄今为止最大的一场胜利。历史将会铭记这一刻。 第16天:人们说这不可能。我证明他们错了。 第17天:我处处获胜。连伊朗都同意。 第18天 :又是一场酣畅淋漓的胜利。大家都为此感到高兴。 第19天:假新闻媒体仍然没有报道这件事。真令人难过。 第20天:我一直赢。我的家人为我感到骄傲。 第21天:历史性的胜利。从来没有人这样赢过。 第22天:每天都是胜利日。他们跟不上。 第23天:赢得比任何人想象的都要多。我正在创造历史。 第24天:媒体恨不得我把话说死,但我又赢了。伊朗想要达成协议。 第25天:最终的胜利。到处都是人问“他是怎么做到的?”