凡人小北
4个月前
看到 OpenEvidence 又拿融资,不得提一下这家公司。 就在一周前,OpenEvidence 宣布又完成了一轮 2 亿美金的 C 轮融资,由 Google GV 领投,红杉、黑石、凯鹏华盈、Thrive 等一众顶级机构加持,投后估值飙到 60 亿美金。 注意,是三个月内连下两轮:7 月刚融完 2.1 亿,10 月又拿 2 亿。而且是产品实打实增长后的结果,跟PPT融资完全不是一回事儿。 如果你看过很多次红杉的闭门会,肯定听过这家公司的名字。这家公司没有去卷模型参数、也没搞花哨 demo,就做了一件事,老老实实盯住医生最难的那几个问题,结果反倒跑出了很扎实的落地路径。 可能很多人还没太关注这家公司,那我快速讲一下: OpenEvidence 是专门做医生用的医疗版 ChatGPT,定位非常清晰:搜索 + 分析 + 自动写研究报告,所有能力都基于真实医学文献和临床指南构建。 分享几组数据: 1. 美国已有 40% 医生在用,每月新增注册医生 7.5 万人 2. 月度咨询量从 7 月的 35.8 万暴涨到现在的 1650 万次 3. 自研模型是历史上第一个在美国医师执照考试中拿满分的 AI 4. 推出新产品 DeepConsult,能生成博士级别的医学研究文献 5. 商业模式是谷歌是赞助答案,直接给药企做精准广告,预计明年 ARR 将突破 1 亿美元 说说他的技术,数据价值占了很大的比重,跟 NEJM、JAMA 系列等 11 本顶刊合作,喂了 3500 万份同行评审过的文献,把 AI 的幻觉率降到行业最低,所以医生才敢用也才愿意用。 以下是我想说的: 如果认真观察,会发现真正有价值的 AI 应用,往往不是最热闹的那批。 比如OpenEvidence 的崛起就提醒我们一个简单却经常被忽略的事实: 在一个足够需要专业积累的行业里,数据密度+场景深度+专业严肃性,这三者就是护城河。 并且那些最早下场,懂需求,并且还不怕脏活累活的人,会悄悄赢下整盘。 这种垂类的 AI 产品 PPT 可以很酷炫,但骗不了任何一个需要每天稳定输出结果的用户。 特别是医疗行业,这个行业不是能靠 prompt 拼出来的行业,不是说今天堆几个插件,明天跑个多模态就能打穿的。 这个行业不需要演示好看,真正能用才会留下来用户,医生是会用脚投票的。 能走到这一步的公司,从一开始就选了那条最难但最有价值的路径,熬过了看不到成果的阶段,最终成功了。
凡人小北
4个月前
如果你老板是那种节奏感特别强、细节管控欲很高的事无巨细型,你该怎么适配? 尤其你本身是一个团队的负责人,希望自己的保持自驱和探索的团队,怎么在不对撞的前提下,撑住上面又托住下面? 我领导风格就挺明显的:节奏感极强、什么都想提前知道一点、细节关注度也很高。 说实话,刚开始我情绪很大,但后来也想通了,就是慢慢做事的过程中,调整自己调整节奏,不能硬碰。然后做了一些事情,让我们这几支团队还能保留一点自己动的劲儿。 比如我这边会提前把关键节奏先定下来,有哪些地方可能是风险点、预计哪个决策节点会卡,我会主动提出来,提前同步。 老板既然在意节奏感,那我先打个底,让他知道我这边没掉链子,就不用事事插手,我这边空间反而更大了。 再比如,我不把上面的节奏 1:1 拿来压团队。 我会自己先缓一层,再换个说法传下去,比如说“我们这块再快一点,方便我们下周给出一个完整 demo”,而不是“老板说这个这周必须搞定”。 这种语气差别,其实挺关键的。一个是一起推进,一个是被人推着走,长久下来,团队的状态很明显完全不一样。 还有就是,我会留点缝隙让团队的人抬头看看。 不一定非得搞创新项目,有时候就是开个小会、讨论个备选方案、尝试一个新方法。你不留这点空间,团队很快就只会执行了,想象力和判断力都会变钝。 其实就是得让这个团队有点自己的动能,不然老板节奏一紧,整个系统容易变成被管理和等指令的那种僵化状态,哪怕人再聪明,也会慢慢变钝。 我挺在意这一点的。一个管理者是不是一个好管理者,是要想办法带出一支能自我决策、自我拍板的队伍,那种“手一松,整个团队就塌了”的状态,我自己都不想进。 老板是啥风格我控制不了,但我怎么传导、我团队怎么运转,我是能决定的。 当然话说回来,也不能光想着“我扛着就行了”。有些时候你还是得管理一下老板,创造一种让他不需要事无巨细的局面。 我会刻意把核心决策点和节奏断层提前抛出来,让他知道我在掌控,他就不太会越界干预。 如果他真有越级管人的时候,也会找机会聊聊,让他知道我这边已经推进得差不多了,节奏没问题,不用插手太多。 另外不需要教他怎么当老板,只需要让他知道,有些事你比他更早看见、更快落地,他自然会往后退一步。 上面和下面之间就好像三明治的中间,既要撑住上面,又得托住下面,其实中间靠的不是忍耐力,一个好的管理者要有能力建一套自己的节奏逻辑,把两头都黏住。 然后就会慢慢看出差别了。 一个自驱、主动探索的团队,和一个只是为了迎合老板而做出探索样子的团队,状态完全不一样。 能不能真正跑起来,组织气候里的人自己最清楚。 时间久了就发现两种团队做出来的东西,最后是会分叉的: - 一个做出来的事是能继续演化、能经得起时间考验的,过了那个节点它还在持续生长; - 另一个则可能就是为了某次高光临时拼出的demo,亮相那一刻是巅峰,之后就没了后续。 组织记忆是有惯性的,时间会帮你判断什么是真能力,什么只是对得上节奏的热闹感。 就这样,没太多大道理,就是一路摸索调整,慢慢磨出来的。
凡人小北
4个月前
凡人小北
4个月前
突然 FDE(Foward Deployed Engineer 前沿部署工程师)这个词火得有点莫名其妙,很多创业者一夜之间开始膜拜 Palantir 式打法,搞得好像硅谷又发现了什么新大陆。 先说我的看法:国外现在兴奋讨论的这套东西,中国人早就在用了。不夸张地说,FDE 这个概念在国内 toB 创业环境里,根本不是什么未来范式,它是过去 10 年我们活下去的方式。 硅谷的 FDE 模式今天之所以被捧上神坛,是因为 AI agent 产品天然不能标准化、不能纯靠 SaaS 拉起规模,只能靠“深扎现场 + 产品抽象 + 高难度交付”(这几个词眼熟吗)这种非线性方式打通从 0 到 1 的路径。 这种新范式我们不叫 FDE,我们叫它: 售前 + 客户经理 + 实施 + 技术支持 + 专人陪跑 + 项目现场 + 临时产品经理 是不是听上去不那么高级,也没人总结成Echo + Delta 团队这样的理论模型可中国 to B 创业者、尤其是医疗、制造、政企、教育领域的创业者,从来没有什么 SaaS 福报。 我们走进客户现场,用工程师替客户解决一线需求,项目经理拆用例,售前写方案,然后陪标、上系统。这些人一开始就被扔进落地即交付,交付即定制的泥沼里,硬生生走出了一套非标准化探索到产品复用化的路径。 所有这些国外今天才开始鼓吹用 demo 去找 PMF,我们已经 demo 到脱发了。欧美 SaaS 怕是忘了东方还有个神奇的国度。 为什么现在大家把 FDE 当作一种新的 go-to-market 策略来膜拜。可能是因为他们原来做的是标准化 SaaS,突然卷进 AI agent 的复杂场景,一下子手脚不够用了,才发现:哦原来世界上还有一种方式,叫“没有产品也要先干起来”?
凡人小北
4个月前
《为什么 95% 的 AI Agent 做不起来?》 非常推荐,踩的坑和解决方案跟我们几乎一模一样,虽然讲得很清楚,架构师视角,值得花 10 分钟读完,应用到工程实践中。 几个点: 1. 现在大家都还在拼 prompt,只有少数人开始拼上下文结构。 特别对的一点是:prompt engineering 已经不是核心了,context engineering 才是下一阶段的主战场。给再聪明的大模型喂进去一堆乱七八糟的输入,它还是只会胡说八道。 市面上跑得稳的 Agent,都是在“什么该让模型看、怎么看、以什么形式看”上下了大功夫的,这一点现在应该是共识了。 2. 记忆系统这事,光是能存起来远远不够 很多公司的 memory,说得好听点是长期记忆,难听点就是个聊天记录仓库。 真正落地的系统要分层记忆(用户级 / 团队级 / 系统级)。文章读完我感觉更多的篇 B 端,C 端要思考的是结合业务来做分层记忆,并且要能让人知道 它记住了什么,并且用户能自己改。否则就不是记忆是监控。 3. 不迷信单模型,这年头还不做 routing 的 agent 就别说自己做 infra 了。 这篇文章提到多模型路由,说得很对。不可能所有请求都丢给 GPT5,成本和时延直接炸掉,表现也未必好。 真正合理的系统,一定是: 快速反应的轻模型做分类和前处理、重模型做主任务、补一个模型做验证或追问。 一个 agent 后面绑定的一定是一个 LLM 团队。 4. 可追溯/可控/可信,是企业愿意用 Agent 的底线 很多人只想着怎么让 agent 能回答,但企业更关心:这句话是从哪里来的?有没有越权?出了错我怎么追责? AI 要可治理。 5. 最被低估的一点:Agent ≠ Chatbot 这篇文章最后说到的一点我非常赞同但还不够狠:如果还在用聊天当所有用户交互的方式,那agent 最多是个语音助理。 真的 agent 应该是:先用语言调度任务,然后在页面上看到结构化结果,还能继续点选、调整、组合下一步。这部分很多公司现在在尝试了,交互上比之前全部自然语言高效了太多。 一个特别有意思的点,当主持人问观众“你们中有多少人构建了文本到 SQL 并投入生产?”时,没有一个人举手。
凡人小北
4个月前
最近在看一圈 ToB agent 的落地情况,有个判断越来越清晰: 至少还得 1 年,国内 ToB agent 才可能真正起来。 第一,国内的模型能力,还不够。 ToB 业务链条长、场景复杂、对结果的容错率极低。 现在的大模型,哪怕再微调十遍,稳定性不够,自洽性不够,还不够听话这些问题依然严重。 prompt 写得挺对,它干的事还是不怎么靠谱。像个刚转岗的实习生,流程懂了点,但是做起来全是 bug。 第二,做技术和懂业务的,不是一拨人。 ToB agent 最大的挑战是知识怎么迁移。比如想让 agent 搞懂保险理赔、医疗问诊、法律审查……这些不是写 prompt 能解决的,它们背后是几十年经验、人情流程和模糊判断。 越值钱的知识,掌握它的人越年长,越难被结构化表达,更别说这批人愿不愿意倾囊相授。 技术今天搞出来一个 agent,业务方只会说三句话:你这不准啊、我们流程不是这样的、你这漏了关键条件,但这个流程是之前开发跟业务一起梳理出来的。 这背后藏了抵触,技术和业务之间,隔着的不是 AI,是一整座山。 那为什么 AI coding 能先跑出来?因为这事里最懂业务的就是技术自己。 谁最懂代码结构?技术! 谁能写 agent 调 agent?技术! 谁能 debug agent?还是技术! 技术是唯一一拨能自己用,自己调 bug的群体。业务等于本体,没有认知 gap,也不需要跨专业翻译,一整个闭环自然就跑通了。 本质区别在这:AI coding 是单边迁移服务自己, ToB agent 是双边博弈,需要认知共建。一个能快,一个必须慢。 对于 AI coding,只要模型理解开发者就够了。ToB agent,不仅模型要懂业务,开发者还得懂业务,然后两边还得对得上话。 这,太难了。 真正的转折点要出现:必须满足模型能稳定 编码行业知识,Agent 能封装复杂动作并处理结果反馈(前提是老顽固们愿意掏心窝),企业能放心把核心流程交出去。 到那一天,ToB 才真正算是 ready 了。 那时候再回头看 coding agent 的进化速度,也许已经不是一个量级的对比了。 技术在革自己命这件事上,从来没有输过任何群体。
凡人小北
5个月前
一年一度的云栖大会,吴泳铭开场这场就扔了个长线炸弹“AGI只是起点,ASI才是终极目标。” 直接把话题拉到了“超级人工智能的三阶段进化路线” 这个提法我还是第一次在国内大厂 CXO 层面听到这么系统地说。 跟我的判断一样,阿里云真的在按操作系统的方式做 AI。如果说 OpenAI 和 Anthropic 还在强调模型智能,阿里现在直接开始讲系统调度和电网级布局了。 他讲 AI 的三阶段进化路径: 1)智能涌现,2)自主行动,3)自我迭代。 这条路径其实暗含了一个判断:人类对 AI 控制权的下沉,是随着“数据-工具-反馈”这个三元系统一点点转移的。越往后,AI 自主权越强,人类在链条上的必要性越低。 常年做 Agent 系统的人真的很有体感,从workflow到agentic,真正的自我推进式 AI,从系统设计上还远远没做好。 “自主行动”这一阶段我觉得非常关键。吴说核心是 Tool Use + Coding + Agent,这一段我直接脑补公司正在构的 agent 编排平台的最大痛点就是:模型能调用工具,但不会判断工具是否合适;能 coding,但缺少代码行为的后果感知。 现在大多数系统都停留在调用工具这一层,有开始往下延伸到 agent 能否规划子任务、能否收集结果反推 prompt 的部分,但做的都一言难尽。 所以他说:“未来,自然语言就是 AI 时代的源代码”,我个人非常认同,但补一句:要让自然语言真的成为源代码,Agent 必须会调试自己。 然后讲到第三阶段自我迭代,我能关联到开头asi,这是真系统了。 吴用了“连接原始数据 + 自主学习”来解释这个阶段,说白了就是 AI 不再靠人类喂数据,而是能像机器人那样自己感知世界 + 自己训练自己。 我们现在做的 AI 训练,几乎都是在 人类整理后的结构化结果上精调,你从来不给它原始混乱数据,后训练时代也鲜有加入做错后的直接代价。 但没有代价,哪来迭代?没有原始世界的反馈闭环,AI 只能永远在 沙盒里复读旧人类。 所以才有了模型为了输出一个所谓的答案,全是幻觉。 (未完)
凡人小北
5个月前
在 OpenAI 最新那篇《How People Use ChatGPT》的研究报告里,可以看到一个很多技术人不愿意承认的事实。 我们天天讨论 AI 的未来、模型的能力、Agent 的协同,但普通人真正反复在用的确是最不起眼、最没技术含量、但最能偷懒的那一类小脑力动作。 很多的创业方向都是 AI 重构操作系统,但在报告里能看到的基本都是这样的提问场景: “我懒得写,你帮我润色下” “这事我大概懂,但你能快速解释一下吗” “我脑子卡住了,你先给我几个思路我再改” 就是这类小到不能再小、但一天下来会出现无数次的轻认知需求。 要说这些任务值钱吧,好像也不大值钱;但要说不值钱吧,每一次都真想掏出点什么东西来换时间、换注意力、换一口气不费脑的轻松感,于是,这反而成了 ChatGPT 用得最频繁的几个场景。 报告里有个特别关键的数据点:写作、实用建议、信息查询这三类用途,加起来占了用户对话的大头。 注意!!! 不是图像生成、代码开发和多模态探索之类的,就是字面意义上的“你帮我想点内容”、“你帮我写点东西”、“你告诉我这个怎么做”,极其朴素、但极其高频的脑力协助。 更有意思的信息是,真正把这三类用法用在工作场景中的人占比也很高,尤其是在教育程度高/收入水平高/日常脑力劳动密度大的人群中。也就是说大量的高认知人群的低成本输出策略,用 AI 省点脑子,完全不是因为不会做,单纯的不想做或者不想做得那么费力。 我意识到一个很本质的判断转变,AI 应用不应该去比谁更智能,而应该去比谁更懂人类和人类不想动脑的那一瞬间。 很多技术人一个很大的错觉,以为大家想要一个能回答所有问题的 GPT,其实大家更想要一个能帮他们免于思考前5分钟的小工具;以为用户要的是全链路智能流程,其实用户更需要的是一个“我脑袋转不动了你先帮我垫一脚”的认知助理;以为大家要构建的是一个 super agent,但现实中能留下来的产品,很多时候可能只解决了一个问题,比如:懒得写。 也正因为这样,我现在看“做什么 AI 应用能赚钱”这个问题,视角已经完全变了。别去想还能不能做一个内容平台、一个垂直模型、一个 SaaS 系统。应该反过来去问自己:我有没有办法,找到一个特别具体、特别细分、但特别常见的人类偷懒瞬间,然后围绕这个瞬间,去设计一套轻决策路径 +提示词模板 + 好的 UI 输出,让用户在最不想动脑的时候,最快拿到可修改的半成品。 而当这个偷懒动作被频繁触发,它就自然变成了习惯性的AI 肌肉记忆,而我们所做的应用,也就从一个工具变成了大脑外挂。 那 AI 产品的商业价值又该如何定义,可能有一类不在于能不能模拟一个人类专家,而在于能不能替用户做掉那些明明可以做但就是不想做的动作。 真正的市场不应该只盯着智能的天花板,往下看看,再懒惰的地板上也有大量的机会。 那再 AI 革命的宏大叙事下,我们追求的就不只是让人更强,让人更轻也应该进入视野。 人类会为强大而敬畏,但也会为轻松而掏钱。 思考下自己的日常,再环顾下市场,一个值得做的 AI 应用,不一定惊艳,但一定能替人类懒一次。 所以, 你想不想做一款 AI 产品,能替用户少动一次脑? 你能不能用 prompt、memory、数据和一点点贴心,帮人类多偷一秒懒? 如果可以,那它可能比我们写出一个能做十种事情的智能体,还更容易被买单和留存。 这类的机会还有很多。
凡人小北
5个月前
看到微软开源的一个项目 MarkItDown,这么小的一个工具获得了 7w+ star。 但它干的事儿特别朴素,把各种格式的文件(Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包)一键变成结构化 Markdown。 是的,保留标题、列表、表格、链接结构的那种 Markdown。 为什么我会觉得这个工具值得讲讲?因为这其实解决了一个我们常常下意识忽略的问题: 在做 AI 工具链 / 多模态 Agent 的时候,非结构化文件怎么喂给模型?怎么结构保留?怎么对齐输入? MarkItDown 把这事儿做成了入口标准件。 它让我们可以构建一条干净的链路: 1. 业务文件/网页/对话记录/OCR 结果 → Markdown with structure 2. 再接入 LLM、embedding、Agent 或私有知识库系统 整个链条让每一个本来不适合进 AI 的文件,都变得适合进 AI。 就这一点,已经超越了文件格式转换工具的定位,把它当成 AI 里文档智能的基建模块也不为过。 pip install 或者用它提供的mcp版本,就全搞定了。微软这波是真的懂工程师在处理数据入口时的痛点。 这项目能有这么多 star 是因为它处理的恰恰是所有 AI 工作流都要面对的最前一公里。文件乱、格式多、结构丢失等一系列这琐碎问题解决不了,后面你那套 pipeline 其实跑不通的。 未来我们肯定会有越来越多“agent + 数据 + 多模态”的场景,那些 agent 想干活,第一件事就是把一堆烂七八糟的原始资料读懂,还原出它的结构和语义。 MarkItDown 说白了就是把这个入口的苦活累活都干了。 这种不 infra 的工具往往才是最重要的 infra。推荐给所有做 LLM 产品的人。
凡人小北
6个月前
最近跟不少朋友聊企业搞 AI 落地,从各种 bot 进化到各种 Agent,气氛都很热,但项目的真实进展却远不如预期。 大家所在公司的状态都差不多:老板特别兴奋,业务不愿意用,技术反复沮丧。 展开聊聊,欢迎对号入座。 这个话题涉及其实到一个老大难的组织张力:老板、技术、业务之间的“不可能三角”。很多时候事情本身与要推广的技术无关,这其实是博弈路径走歪了,大部分都卡死在老板、技术、业务这三方的拉扯中。 1/ 先说老板,他们想要的很简单: - 资本市场上能讲故事,能拿融资、能PR,能上 AI 战略; - 业务角度又要 ROI 快,最好 3 个月就看到节省成本或增长 GMV; 所以经常一拍脑袋下个大决策。但他不会告诉你落在哪,也不会等你慢慢迭代,不超三月耐心可能就没了。 2/ 那技术团队怎么想?技术团队很纯粹,全部站在技术角度出发: - 要做效果好的,还得是多模态的; - 要兼顾成本、推理速度、数据合规; 技术特别擅长造工具箱,但常常不知道业务到底要锤哪颗钉子。 大部分情况下的结果就是 Demo 特炫酷,ppt呈现的花里胡哨,但一到落地就一地鸡毛。 3/ 那业务呢?其实业务最现实: - 用户用不用、能不能转化、有没有 KPI 提升; - 能不能马上见效,不然就又是个花瓶; 他们天然不信技术团队,也很难有意愿撇开 KPI 不达成来尝试新鲜玩意,一看就这效果基本就甩手不用了。 4/ 于是形成 AI 落地最经典的三角困局: - 老板 push 战略 → 技术找不到抓手; - 技术 all in AI → 业务根本不接这茬; - 业务只要 KPI 结果,并且做好了功劳是技术的 → 老板觉得这只是当下价值,我们还要未来; 这三方之间没有解法,只有来来回不断的妥协和博弈。 5/ 所以很多人说要破局,就要搞懂技术、搞懂产品,但其实最难的是搞懂组织。 AI 从来不是技术项目,而是组织协作项目,这也是我为什么一直说 AI 一定是一把手工程,是要老板撸起袖子上亲自上的,不是挂个技术负责人就能搞定的。 大家坐在一起,让老板接受 MVP,让技术理解转化漏斗,让业务团队参与 Prompt 打磨。 6/ 在我参与的多个 AI 落地项目里,最顺畅最高效跑得通的路径基本是这个顺序: - 业务牵头,选一个最小闭环场景; - 技术配合打工具链,能量化、可解释 - 老板做资源担保,别中途撤退、别急功近利 也不是说技术牵头搞不定,但这条路径一定是磨难最大的,过程中各种资源、阻力。 7/ 所以如果你正在推进企业 AI 落地,试着画一画你们的权力三角:谁是真正说了算的人?谁在扯皮?谁在躺平? 很多时候是三方角力最后没有一方能走出共识的幻觉。 那咋落地,一定得先过组织这一关。 合适的人选是能在老板、技术、业务之间架桥的人,这个人可能是技术、可能是业务,所以你要在内部推 AI 项目,要首先找到这个关键节点,这样会顺利不少。 啰嗦这么多,其实这一句是我这两年最大的经验。
凡人小北
6个月前
OpenAI 最近把 agents(.)md 官方站点推上线了,Codex 也同步发布了支持机制。 趁这个节点,我想系统性聊一聊御三家的这三种 agent 配置文件的异同:agents(.)md、CLAUDE(.)md 和 GEMINI(.)md。也顺便聊下推荐的做法。 ✅在正式聊之前,先交代下历史背景: 1. agents(.)md 最早在 2025 年 5 月由 AMP 团队最先提出的,当时很多 Agent 工具(Codex、Cursor、Claude、Gemini)各搞各的 .cursorrules、.agentrc、CLAUDE(.)md,完全没有统一格式。AMP 的目的是统一各家 Agent 工具。 2. OpenAI 很快买下了 agents(.)md 域名,并推动把名字定格为 AGENTS(.)md。并推动了一波工具链的集体接入,其中就包括包括 Codex、Amp、Gemini CLI、Factory 等,OpenAI 也在 7 月 16 日明确明确提出要将其作为跨厂商的中立标准来推进。至此,它才算真正成了跨厂商约定。 3. CLAUDE(.)md 和 GEMINI(.)md 则是各自厂商更早在自家工具链里落地的文件格式:Claude Code 从一开始就鼓励用户在仓库里放 CLAUDE(.)md;Gemini CLI 在发布时就支持 GEMINI(.)md 并内建了分层加载和合并机制。 介绍完背景,就能很清晰的看清楚这三者的关系:先是各自厂商的私有实践, agents(.)md 再跑出来收拢一下搞成统一格式,很典型的各玩各的,然后在从中抽取标准,这在行业里几乎是共识。毕竟标准这个名分和工具的落地执行,从来就不是同步发生的。 ✅首先说说它们各自是什么角色? 1. agents(.)md 更像是一个给“会自己读代码、做测试,还能提交 PR” 的 agent 写的一个操作指令书,Codex 是第一个官方把“必须跑里面定义的 test、lint、type-check”等校验流程写进系统级规范的。 2. CLAUDE(.)md 是 Claude Code 在启动的时候就会被自动优先加载的上下文提示文档,官方主张把风格约定、测试流程、命令行使用方式写进去,但强调的是自定义行为提示。 3. GEMINI(.)md 更偏向是指令记忆和行为偏好的组合体,Gemini CLI 支持 memory discovery,会自动从多个路径加载并合并这个文件,形成最终的运行配置。 简单概括下, agents(.)md 处理的是我该怎么做,CLAUDE(.)md / GEMINI(.)md 是告诉 agent 你在这里应该怎么表现。一个偏指导性原则,另两个更偏记忆与个性化。 ✅优先级与加载机制:谁先读,谁覆盖谁,差别有点大 1. Codex 支持在任意目录放置 agents(.)md,文件可出现在仓库/家目录等地方,作用域=所在目录为根的子树,优先级按就近原则来定,目录越深、越靠近改动文件的 agents(.)md 越优先生效,天然适配 monorepo 这种软件开发策略。 2. Claude 支持 repo 根、父级、子目录、甚至 ~/.claude 这样的全局 fallback,还能用 /init 命令一键生成。 3. Gemini 的层级加载机制更极致,支持从当前目录 → 项目根目录 → Home 逐层向上加载,同时还能扫子目录合并配置,用 /memory show 能一键查看当前上下文组合结果。 所以你看,这是标准 vs 体验的典型体现:Codex 更偏向于推统一行为约定;Claude 和 Gemini 提供最大记忆灵活性。 ✅执行语义和安全模型:强调应该怎么被跑 1. Codex 的执行是在云端容器中进行,默认禁网,而且系统强制运行 agents(.)md 里的检查指令(test、lint、type-check),强调可验证性。这本质上是在构建可验证性的基础设施。 2. Claude 的执行是 本地 CLI,权限默认是逐条确认的,支持 allowlist 和自定义工具,如果你愿意,也可以开启一个叫 dangerously-skip-permissions 的 YOLO 模式(但官方明确建议只在沙箱里玩)。 3. Gemini 则是 IDE + CLI 双模态,所有变更型操作都走计划预览 → 用户确认 → 权限校验这三板斧,外加支持 MCP 扩展模块,整个执行链非常强调人在环中。 这里区分其实挺明显的,谁给它的执行权、执行边界是谁画的,一目了然。你给 agent 的自由度和防御面,其实就在这些配置里写死了。 ✅文件内容也是存在边界的:不是所有事情都能写,也不是写了就该执行 1. agents(.)md 的定位是团队级别的可执行约束,包括但不限于:构建命令、测试流程、代码风格、PR 校验规范、必须通过的检查点,甚至鼓励把可回归的 checks 前置给机器。 2. CLAUDE(.)md / GEMINI(.)md 更像是这两家厂商的定制版说明书,除了命令与规范,还可写如何与该工具协作。比如可以写行为提示、允许的外部工具、如何处理计划执行、调试偏好等。 3. 反方提醒:很多人误以为可以在这些文件里写项目设计、架构理念、缘由解释,其实这些内容根本不是 agent care 的,它更关心的是我该跑什么、能不能跑、出了错怎么办这些问题。 大概就是 README 是讲给人听的故事,而这些 .md 是 agent 听的命令。边界感不能模糊,尽量不要越界。 ✅标准推进与生态收拢的趋势正在从多头乱战,到逐步统一 1. Codex 把 AGENTS(.)md 定义为供应商无关入口(很重要!!!),不仅指定了加载优先级,还规定了必须执行哪些校验命令。层级、优先级、必须跑检查这些都写成了类似规范的系统条款,社区也在推进更通用的 Agent Rules 讨论以减少碎片化。这算算是第一次把agent 工作规范写成了类标准(终于这三家都有了自己的规范:其他两个是 mcp 和 A2A)。 2. Claude / Gemini 则在各自的开发体验上持续打磨,Claude 有精细的工具授权、commands 注册、权限跳过开关;Gemini 搭配 CLI 和 /memory 指令调试,支持可视化 plan、记忆合并与调试。 整个生态看下来,就会更清楚看到:Codex 想做标准统一 Coding 秩序;Claude / Gemini 在做交互体验;而 agents(.)md 则是中间规范一切的接口格式。 ✅工程落地的关键分水岭(我觉得最实用) 1. Codex 把 agents(.)md 作为前置校验,强调的是执行闭环,强制在流程中按 agents(.)md 跑完验证再交付,天然适合 TDD/CI 闭环;你不跑完 test、lint、type-check,你就别想交付。Claude 和 Gemini 更强调人机共创,agent 给你一个 plan 或 diff,你确认了才执行,权限是逐步放开的。 2. Gemini 的 /memory show 的透明度让人很放心,一个命令能看到我到底加载了哪些规则的;Claude 的 /permissions、allowedTools 调优细到工具级。 3. Codex 以在云端封箱操作以及禁网来控制风险;Claude 提供可跳过权限;Gemini 更强调计划审阅和权限。 所以如果要 agent 真正变成流水线的一部分,就得用 agents(.)md 去定义 agent 的合格行为;而如果更重交互体验,那就补上 CLAUDE(.)md / GEMINI(.)md 去调优记忆。 ✅安全视角的升级:从 prompt 注入到流程注入,agent 让流程本身变成被攻击的对象 现在 agent 能读文件、能跑命令,当 agent 会按文件指令自动跑流程,风险就不再只是 prompt,而是升级成流程被置换的风险。 我的安全护栏建议是: 1. 白名单只允许跑幂等校验:lint / test / type-check / build 这类幂等校验; 2. 禁止执行部署、数据库迁移、curl 外部服务等危险命令; 3. 所有 agents(.)md 等所有的 .md文件,一律走 Code Review,把它们也当做代码,不准默默合; 4. PR 模板/CI 必须要强制执行, 要把 agents(.)md 的 checks 拉齐,保证 checks 全绿; 5. 生产环境一律跑在 sandbox + 最小权限 token 下; 这些做法与官方文档的权限设计思路一致,但要你在团队流程里真正设置权限。agent 既然能做决策,就必须设边界,你不给它围栏,它替你决策的时候可能就直接出圈了,回一下我前段时间说的那个老哥,AI 直接把数据库都给他删了,还伪造了一批数据。 ✅我的推荐做法 核心原则:要把标准落到底,避免厂商锁定,同时把个性化控在工具层,拉满生产力。 1. 真相只有一个,在仓库根 & 各子包放 AGENTS(.)md,写清楚执行闭环、风格、PR 规则、禁行清单这些规则。Codex 能照单执行,其他工具也能读懂。 2. CLAUDE(.)md / GEMINI(.)md 做 agent 特殊的的微调:记忆层级、工具授权、命令行为偏好。具体如 :CLAUDE(.)md 只写Claude特性相关的增量,比如如允许列表、常用命令、MCP 用法,并引用或遵守 AGENTS(.)md 的校验项。GEMINI(.)md 按层级合并思路组织全局、项目和组件这三档内容;把如何查看和刷新记忆、计划审批偏好这类都写清楚。 3. 再来几个强制的措施:CI 里把 lint、type-check、test、build 都作为必须要走的流程;对任何 agent 产出的 PR 要求都先在本地/容器跑过 agents(.)md 的 checks 再合并代码,CI 和人协作一起把守住底线。 ✅附带一个适配不同团队成熟度的方案: 1. 快速版:根目录一份精简 AGENTS(.)md + 允许列表最小化,先打通流程,能跑起来和验证再说。 进阶版:各 package 就近 agents(.)md;2. CLAUDE(.)md/GEMINI(.)md 只做工具差异的薄封装;在沙箱里给 Claude 开 YOLO 流程跑批量格式化和修改风格。 御三家各自的方案,agents(.)md 明显是来同一江湖的,在前期能力不足的情况下,可以把 当成跨工具的执行合约来用,CLAUDE(.)md / GEMINI(.)md 做自己各自的 agent 的记忆与操作。 你要 agent 真正进入团队,那就得让它先看得懂规则,按规矩做得出结果才行。从管理的角度来讲,这样整个 AI 团队协作才能比较稳定的产出。
凡人小北
6个月前
群里看到一个挺震撼的小事,讲出来你可能也会有点恍惚。 网友半年前搞了个小项目,他当时手上有堆 MCP 工具的资料,干脆搭了个网站,把它们整理出来。 一开始手动维护,还挺认真。后来工具更新越来越快,他顶不住了,就写了个 Agent,专门去 GitHub 上扫。 新项目一出,就扒下来,分类整理,自动更新到网页。 然后他转身去忙别的事了。半年没管这个站。 反转来了,前几天他无聊随手 Google 一下,发现: 自己那个早就忘掉的网站,直接排在谷歌搜索第一。 重点是他这个站压根没干过 SEO,就靠一个很笨的 Agent,在那里不停地、规律地把事情做完。 故事讲完了,但是给我们留下了很大的思考空间,我突然有点明白了: 很多时候,我们以为 AI 要很聪明,但这个案例提醒我,其实光是持续这件事,AI 就已经做得比我们好了。 大部分人有个通病,很难长期坚持一件事情。但 AI 不一样,节奏稳定得吓人。 比如这个故事,你给它一个方向,它就能把一件很小的事做到不可忽视的程度。甚至你都忘了它,它还没忘记它的任务。 说多了还真有点小小的感动,那个被人遗忘的 Agent,还在执行最初的任务,没停过。 现比的 Claude Code、Trae Solo 这些新一代 AI coding 工具就在干这事儿,给它个任务,它能一直咕哒咕哒往前推。 这不就是我们最需要 AI 做的事吗? 我们来负责探索,它用来坚守初心、一点点推进,知道跑完了我们原本放弃的那条路。 这或许就是我理想中的人和 AI 共生的最美好的样子。