宝玉
1个月前
关注 AI Agent 的力荐 MMC 的这篇刚发布的《State of Agentic AI: Founder’s edition》,不仅数据扎实,分析了问题,还提供了可行的解决方案。 今年 2025 年是公认的 AI Agent 元年,“Agentic AI” 非常火,新产品也层出不穷:Deep Research、Coding Agent、Browser use、Computer use …… 当然 Agent 争议也不小,一部分人认为没啥用,一部分人则觉得 Agent 无所不能,也无可厚非,大家都是主观感受 ,每个人使用场景都不一样,比如我自己就很喜欢 Coding Agent,真的能解决问题。但这种争议如果用数据说话就会有说服力的多,比如说这玩意儿,在真实的企业里,真的用起来了吗? MMC 则是深入访谈了 30 多家正在做 AI Agent 的创业公司创始人和 40 多位企业里的实际用户,写了这篇报告:《Agentic AI 现状:创始人版》。 【1】真正限制 AI Agent 的,可能不是 AI 不够聪明 大部分都以为目前 Agent 最大的困难会是“AI 不够聪明”、“幻觉太严重”或者“太难和当前系统集成”。 这些确实是问题,但出人意料的是,在创始人眼中,它们排不进前三。 根据调查,部署 AI Agent 时的三大问题分别是: 1. 工作流集成 和 人机交互(占 60%) 2. 员工抵触 和 非技术因素(占 50%) 3. 数据隐私与安全(占 50%) 也就是说最大的障碍,是“人”和“流程”的问题。 1. “这玩意儿我该怎么用?”(工作流集成) 这是占比 60% 的最大难题。 一个 AI Agent 再牛,如果它是一个需要单独打开的 APP,需要员工在现有的工作软件(比如钉钉、飞书、Salesforce)之外,再打开一个新窗口去指挥它,那它的使用率注定高不了。 成功的集成,是把 AI 嵌入到员工已有的工作流里。比如,当销售在 CRM 里更新一个客户状态时,AI Agent 自动跳出来说:“我帮你把刚才的会议纪要总结好了。” 这已经不仅仅是个技术问题了,更需要企业改变观念,企业得先想清楚:“要集成这样的 AI Agent,我原有的工作流程需要怎么改?”这往往比买一套 AI Agent 难得多。 2. “它会不会抢我饭碗?”(员工抵触) 这是 50% 的创始人提到的信任危机。 我们得承认一个现实:在企业里,人类和 AI 的合作,目前大多不太愉快。 - 一种是“过度依赖”:员工把活儿全丢给 AI,自己不检查,结果 AI 出了错,比如给客户报了个错误的价格,酿成大祸。 - 一种是“过度怀疑”:员工根本不信 AI,AI 做的每一步,他都要自己再核查一遍。这非但没提高效率,反而增加了工作量。 更深层的,就是对被 AI 取代的恐惧。这导致员工在用的时候束手束脚,或者干脆阳奉阴违,不愿配合。 3. “我的数据喂给 AI,安全吗?”(数据隐私) 这也是 50% 的创始人提到的核心关切。 这个问题在金融、医疗等行业尤其严重。企业会担心:“我把内部的财务报表、客户病历交给这个 AI Agent 分析,这些数据会不会被拿去训练别的模型?会不会泄露?” 这种担忧,有些是真实存在的,比如需要符合 GDPR、ISO 27001 等合规认证,也有些纯粹是感觉上的。但无论哪种,都会让企业在部署时畏手畏脚。 【2】做得好的 AI Agent:高准确率和高自主性 既然有这么多困难,那现在做的好的那些 AI Agent,实际表现怎么样? 这个报告给我很大收获的一点是它从两个维度来量化现在的 AI Agent:准确率(Accuracy)和自主性(Autonomy): - 准确率:AI 干的活儿,多大比例是对的、被人类接受的。 - 自主性:AI 干活儿时,多大程度不需要人来插手。 理想状态当然是高准确+高自主。但现实是,超过 90% 的Agent创业公司声称自己的方案达到了 70% 以上的准确率。 所以 MMC 把 Agent 划分了三个分类(低准确率+低自主性的Agent就不配存在): 1. 中准确、高自主: 适用于低风险、高重复、易验证的工作场景。比如自动给海量的营销邮件打标签。就算 AI 标错了 30%,但它帮你自动处理了 1000 封,你只需要人工纠错那些明显不对的,总体效率还是远超纯人工。 2. 高准确、低自主: 适用于高风险、高价值领域,比如医疗场景。比如 AI 帮你起草临床试验的研究报告。它必须保证 90% 以上的准确率,但人类专家必须在每一步进行严格审核(低自主权)。它扮演的是“超级助手”,而不是“决策者”。 3. 高准确率 + 高自主性: 这可以说是最理想的“甜点区”,是大家努力的方向。它适用于那些 AI 部署相对成熟或规则边界清晰的领域。比如客户服务、网络安全或金融合规。在这些场景下,AI Agent 已经足够可靠,达到 80%-90% 的准确率和自主性,可以被授予高自主权去端到端地处理任务。报告提到,这里的秘诀通常是将概率性的大语言模型与更具确定性的 AI 方法相结合,以提高准确性,从而进一步提高自主性。 【3】企业开始为 Agent 付费了 聊 AI Agent 落地,绕不开收费的问题,毕竟靠烧钱是无法持久的。 好消息是企业开始真掏钱付费了 报告发现,62% 的 AI Agent 创业公司,已经拿到了企业的“业务线预算(Line of Business budget)”。 这是个超级积极的信号。可能很多人不知道大公司内部的预算分两种:一种叫“创新预算”(Innovation budget),就是小金库或实验经费,数额不大,用完了算,大家图个新鲜。 而“业务线预算”,是各部门(如销售部、市场部、财务部)用来保证自己核心业务运转的支出。 当 AI Agent 开始动用“业务线预算”时,意味着它已经从可有可无的玩具变成了能帮我干活的生产力工具。 坏消息是现在还没摸索出最佳的收费模式 虽然知道这玩意儿值钱,但到底该怎么定价?报告显示,大家都在摸索,主流的两种方式是: 1. 混合定价(23%):比如“基础服务费 + 超出部分按用量付费”。 2. 按任务次(23%):AI 帮你干成一件事(比如发出一张发票),收一次钱。 而大家最期待的按照按效果付费(Outcome-based),目前只有 3% 的公司在用。 为什么?因为太难了。 比如,一个“销售 AI 助手”,它帮销售赢了个大单。这个功劳,到底 80% 算销售的,还是 20% 算 AI 的?怎么衡量?如果 AI 没功劳,企业是不是就可以不付钱?这根本算不清。 所以,目前最现实的还是按苦劳付费,而不是按功劳付费。 【4】最重要的部分:成功的 AI Agent 落地策略 既然 AI Agent 落地这么难,那些成功的 Agent 公司是怎么说服企业客户的呢? MMC 的访谈总结出了一套非常实用的落地经验: 秘籍一:“Think Small”(从小处着手) 报告总结了一个非常务实的落地策略:Think Small (从小处着手)。 忘掉那些“彻底颠覆行业”、“全自动替换人类”的宏大叙事。成功的 AI 智能体,往往从一个非常小、非常具体的切口进入: - 起点: 选一个低风险、中等收益的任务。 - 关键: 选一个员工最讨厌干的活儿。比如,销售团队最烦的手动录入客户数据,或者财务团队最烦的核对发票。 - 定位: 永远不要说你是“替代品” (Replacement),要说你是“副驾驶” (Copilot)。 你的目标不是让老板开除员工,而是把员工从那些重复、枯燥、没人想干的破事儿里解放出来。 当员工发现,这个 AI 真的帮我省了每周 5 小时填表的时间,信任的种子才算种下了。 秘籍二:“保姆式”服务(Hand-holding) 现在的 AI Agent 还远没到即插即用的程度。企业买的不仅是软件,更是一整套陪跑服务。 成功的创业公司都在用“前线部署工程师(FDE)”模式。这帮人既是程序员,又是咨询顾问,他们会直接“扎”到客户的办公室里,手把手帮客户梳理流程、清理数据、调整 AI。 同时,人机交互界面要做到“3E”: 1. Education(教育):AI 要能主动教用户“我能干啥,你该怎么用我”。 2. Entertainment(趣味):交互得有趣。 3. Expectation Management(预期管理):AI 必须坦诚地告诉用户“我干不了啥”,别吹牛。 秘籍三:定位决定生死(Positioning) 最后,你怎么“说”你是谁,可能比你“是”谁更重要。 - 是“副驾驶”,不是“替代者”: * 一定要把姿态放低。你的产品是“Copilot”(副驾驶、领航员),是来“Augment”(增强)员工能力的,不是来“Replace”(替换)他们的。哪怕你的技术真的能替换掉 80% 的人,也千万别这么说。 - 看人下菜碟: * 在医疗这种保守行业,你最好少提“AI”,多谈“自动化”、“效率提升”。 * 在金融这种激进的行业,你就得猛吹“Agentic AI”,显得你很前沿。 - ROI 要具体: * 对于成熟流程,就说“节省了 XX 小时”或“降低了 XX% 成本”。 * 对于 AI 创造的新能力(比如“千人千面”的网页),就把它和你已有的工具挂钩,比如:“能让你的谷歌广告转化率提升 20%”。 【最后】 港真,年初的时候我还是 AI Agent 的怀疑论者,自从用了 Claude Code 后,我开始“真香”,变成了 AI Agent 的积极拥护者,也一直很关注这个领域的发展,这份报告质量还是很高的,尤其是给我最大感触的点是: 决定 AI Agent 落地成败的,最重要的因素已经不是模型能力够不够强,而是它怎么和企业内部的流程整合,怎么取得员工的行人,怎么证明它存在的价值。 另外从准确率和主动性这两个维度来量化评估 AI Agent,是挺科学的,现在很多的 AI Agent,主动性高了准确率可能就不够,准确率上去了主动性又不行,要做好 Agent,最终还是要做到像一个情商高的真人那样,在你还没开口时,就洞察到你的需求,默默帮你把事情搞定。
Compute King
1个月前
中国科学家登上《Nature》:攻克140年化学难题,或大幅降低抗癌药成本 笔者注:最近国内高校在Nature都爆表了呀。。。这个国际顶级学术期刊上个星期刊发了来自中国科学院大学,杭州高等研究院,化学与材料科学学院张夏衡研究团队的最新成果:“Direct deaminative functionalization with N-nitroamines”。 论文链接: 这项研究解决了困扰有机合成领域超过140年的核心难题,被国际同行高度评价。作为审稿人之一,辉瑞制药高级研发总监Scott Bagley称其为“true tour de force(真正的杰作)”。。。 破解百年化学瓶颈 一个世纪以来,化学家们在将芳香胺结构转化为其他功能性化合物时,几乎都依赖通过“重氮盐”中间体的反应路径。 然而,这一传统路线不仅反应步骤繁琐、收率低、纯化成本高,更由于重氮盐极不稳定、易爆炸,极大地限制了工业化生产安全与规模。 张夏衡团队提出了一种以N-硝胺为媒介的“直接脱氨官能团化”策略。该方法能够在温和条件下,直接将惰性的芳香C–N键一步转化为C–X、C–O、C–N、C–C等多种化学键,反应安全、高效且可放大至公斤级生产,为有机合成开辟了一条全新路径。 这一方法不仅从根本上摒弃了高危中间体“重氮盐”,还在安全性、成本与效率方面实现多重突破。这是一个颠覆性的进展,将为多个市场带来了革命性的转变。。。 或将颠覆抗癌药合成成本结构 张夏衡团队测试了170余种化学底物,包括传统方法极难转化的复杂分子,如间位氨基吡啶、多氮杂环及多种药物分子,转化成功率达到46%至83%。 更具代表性的是,研究团队把好几步反应放在一个锅里一次性做完。比如,他们用三步一锅法高效合成了一种抗炎药“依托考昔”,成功将原本复杂的多步反应路线极大简化。实验结果表明,该反应在千克级规模下收率高达90%,显示出强大的工业可行性。 业内人士指出,这项技术有望应用于多种重磅药物的第二代或第三代仿制药工艺中,包括PARP抑制剂,BTK抑制剂和酪氨酸激酶抑制剂等,从而显著降低全生命周期成本,使高端抗癌药更易被患者负担。 距离“诺奖级成果”还有多远? 纵观诺贝尔化学奖历史,Heck、Negishi、Suzuki的钯催化交叉偶联反应(2010年获奖)与List、MacMillan的不对称有机催化(2021年获奖)均经历了20至40年的时间验证。。。 张夏衡团队的成果同样具备原创性强、应用广泛、潜力深远等关键特征,但仍需未来数年到十数年在全球范围内获得更广泛验证与引用。。。 从实验室到工业化,从方法学创新到实际应用,张夏衡团队的这项研究为全球化学与制药产业提供了全新的范式。 它不仅展示了中国科学家在基础化学领域的原创能力,也为“让高科技抗癌药更亲民”带来了现实希望。。。 张夏衡团队 这里还有个有意思的评论:
听了最近一期硅谷 101 关于美国电力的分享,才知道最近 BE 今年涨了五倍,是因为它几乎是唯一的选择: 美国 AIDC 现在都在搞「园区自建电站」: - 核电稳定,但建设周期是 5 年以上 - 新增电力供应和电力上网是两回事,上网电的乐观排期是3–5 年 - AI 上线周期又是按季度算 所以最现实也几乎是唯一的方案:AIDC 旁边自己发电。 - - - 现在支持这个规模的在地发电只有两条路径:天然气燃气轮机和固体氧化物燃料电池 SOFC。 燃气轮机的原理类似于飞机发动机,因为之前的需求没有这么强,美国本土能交付的产能只有几十台的数量级(每一台几十 MW、100MW 级)。 据说马斯克的 xAI 扫完了美国几乎所有的燃气轮机库存,加速了这个趋势。 代表公司是 GE Vernova / Siemens Energy / Mitsubishi Power / Doosan Enerbility。 但是燃机转速掉、调停会有瞬断风险,SOFC 电池是连续稳态电,虽然建设成本更高,但是电效率也更高,也支持氢气掺混,目前的玩家只有美国的 BE 和韩国的 Doosan Fuel Cell。 BE 目前在 2028 年以前不会接新订单了。 - - - 产能爬坡: 燃机轮机原理 = 半个航空发动机 + 半个发电厂: - 涡轮叶片是单晶超合金,涉及航空级精密加工 - 大型锻件与高端合金加工全球只有几家,主要在中国,但是被 Section 232 设置了配额和加征关税 - 人才链条断档(多年需求低迷) 这都不是加产线能解决的问题。 - - - 搞清楚的太晚了,但凡和一个美国 AIDC 建设从业者聊聊,应该抓住主线还是不难的,不会被核电的伪经忽悠。