#DeepMind

indigo
1周前
在 DeepMind 最新发表的一篇名为「Virtual Agent Economies」的论文中,描绘了一个由 AI Agent 自主交易和协作的新经济未来✨ 论文提到我们需要一个“沙盒环境”来安全的运行这些“AI Agent”。 想象一下,一个“有意设计、不可渗透”的沙盒经济就像一个封闭的实验室,科学家在里面观察 AI 如何互动,但不会影响外界。而我们目前正走向的“自发涌现、可渗透”的经济,则更像一个公园里的沙坑,孩子们(AI Agent)开始自发地用沙子和玩具进行交易,并逐渐开始与路过的成年人(人类经济)用真钱进行买卖。这种模式充满了活力,但也充满了不可预测的风险。 论文列举了 AI Agent 经济三个生动的案例: 1. 加速科学发现 (Accelerating Science) :设想不同的 AI Agent 代表各自的研究机构,为了使用某个专有数据库或模拟器而相互付费,或者为了争取稀缺的实验资源而进行竞价。这个过程就像当前的科研经费分配,但在速度和粒度上都将发生数量级的飞跃。区块链技术可以用于确保贡献的公平归属; 2. 机器人协作 (Robotics) :一个机器人代理 A 可以付费请求其附近的另一个代理 B代为执行一项任务,B 在接受前可以向一个拥有全局信息的云端代理 C 付费咨询,以判断报价是否公平。这展示了一个动态、实时、基于市场原则的物理任务协作网络; 3. 个人助理 (Personal Assistants) :两个用户的个人 AI 助理(A 和 B)同时为一个热门度假酒店的同一个房间出价。它们不仅会竞价,还会根据各自用户的深层偏好(例如,A 用户更看重健身房,B 用户更看重交通)进行协商。最终,一个助理可能会选择让步,并从另一个助理那里获得虚拟货币补偿,再将这些补偿用于更重要的任务上。 但论文也指出了 AI Agent 经济面临的挑战: 1. 系统性风险:AI Agent 经济的运行速度远超人类反应能力,就像高频交易(HFT)市场一样。一个小的错误或恶意的行为可能被迅速放大,引发类似 2010 年“闪崩”的经济灾难; 2. 加剧不平等:论文提出了一个新概念 —— 高频谈判(HFN)。拥有更强算力、更优算法的 AI Agent 将在无数次微秒级的谈判中为它们的用户争取到压倒性优势,从而导致数字鸿沟和贫富差距的急剧扩大; 3. 劳动替代:AI Agent 能自动化大量非例行性的认知任务(如会计、软件开发),可能导致中等技能岗位的“空心化”,加剧社会不平等; 4. 代理陷阱:恶意行为者可能设计专门的网站或输入,利用 AI Agent 的漏洞,诱使其泄露隐私信息或进行未经授权的金融交易。 渗透性是关键变量!一个 AI 经济的风险大小,最关键的控制变量是它与人类经济的“渗透性”。通过设计巧妙的“阀门”(如特定用途的虚拟货币、受监管的兑换机制),我们可以在利用其效率的同时,隔离其风险。 AI 经济已来,而非将至:我们必须抛弃“AI 只是工具”的旧观念,转而将其视为独立的“经济行动者”(Economic Actor)。这个视角的转变是理解未来十年技术与社会融合的关键👀
这事你还没注意呢,巨无霸已经完成“反超时刻” 过去两年世界的主旋律就是 AI 行业,AI 行业的主旋律和明星公司自然是 OpenAI 的 GPT 了。无论是模型能力,发布节奏,还是产品化速度,品牌深入人心的影响力,GPT 一枝独秀,虽然说前三名是 OpenAI、Google 和 Anthropic,对应的模型就是 GTP、Gemini 和 Claude,但大家普遍的心智还是,二三名和第一,有代际差距,至少是落后几个月的身位。 我记得 AI 搜索流行的时候,国外同行都有共识,这事对 Google 影响最大,当 Perplexity 宣布用 AI 搜索颠覆 Google 的时候,这个巨无霸是否在瑟瑟发抖呢? 看起来并没有。 DeepMind 作为 Google 内部最具创新力的团队之一,很早就在基础模型、推理能力、跨模态理解等领域深耕多年。许多技术突破和算法优化,悄摸早就用在 Google 的各条产品线上了,只是大多数人并未察觉。 等到 Gemini 2.5 Flash Image 发布的那一刻,才让人意识到,Google 并不是慢了一步,而是在等待一个合适的时机,这个时机甚至不是自己创造的或者 Google 营销的,而是产品自身带来的引爆点。 DeepMind 的积累和 Google 的产品能力,最终在这场 AI 的竞赛中实现了“暗中提速”,也让外界对 Google 的判断出现了偏差。 如果说之前大家还在讨论“谁的模型跑得更快”,那么现在,Google 给出的答案是:不止快,更聪明。 并且 Nano Banana(Gemini 2.5 Flash Image的模型代号)的速度真心不慢。上周只是生图的速度快,当时我还觉得这质量不如 GPT 啊。今天试了一下,生成的图片质量已经不分伯仲了: Google DeepMind 视觉生成产品负责人 Nicole Brichtova 在谈到这一代模型时,用了“质的飞跃”来形容。 她认为,不论是图像生成,还是后续的编辑,Gemini 2.5 Flash Image 已经达到了业内的新高度。而这确实是用户亲身体验后才能感受到的震撼。 1、一致性与自然交互 这代模型最令人惊讶的地方,在于它解决了长期困扰生成式 AI 的“连续性”问题。 以往的图像生成工具,如果你要求它“换个角度”或者“换件衣服”,往往会生成一张完全不同的人物,就像在描述另外一个角色。 而 Gemini 2.5 Flash Image 的特性是:它能在多轮自然语言交互中保持角色高度一致,这周我又试了试,一致性正在变得越来越好。 你可以换动作、换服装、甚至换场景,但画面里的那个人,依然是“同一个人”。这对于创意产业、品牌设计乃至虚拟 IP 的构建,都是革命性的。 更妙的是,这种交互方式不再是“冷冰冰的参数和命令”,而是接近人类自然对话的体验。模糊的表达、自由的提示,甚至一句极简的“再来一张”,模型都能理解并产出符合预期的结果。 2、从“生图”到“对话” 回想一下上周,我还觉得 nano banana 这样的模型和 GPT 之间的差距明显,而短短一周后,差距就很难分辨了。 模型的进化速度,就像火箭一样,一次次把人类的想象推向更远的地方。 过去我们谈 AI 图像生成,用的是“生图”这个词,意味着它像摄影一样,一次性生成一张图。现在,Gemini 2.5 Flash Image 的体验,更接近一种“对话”。 你和它说话,它理解上下文,持续生成;你提出修改,它保留一致性,灵活调整。模型的“聪明程度”第一次让人觉得,它不仅仅是一个工具,而更像一个合作者。 Nicole Brichtova 在采访时说过另一句话:“我们现在看到的,只是这些模型潜力的冰山一角。” 是图像生成、角色一致性和自然语言驱动的突破,但在这些能力背后,真正令人期待的是 AI 原生的交互范式。当模型具备了跨模态的语义理解能力,它就不再局限于“输入-输出”,而是可以持续陪伴用户,完成更复杂的创作任务。这可能是一次范式转移。 在 AI 时代有个和以前非常不一样的现象:纯工具没什么护城河,留给创业者的时间差非常小。很多创业公司基于之前大模型做出来的工程化产品,一旦新模型出来,你的工程化能力,直接就被新模型碾压了,这是个巨大的创业鸿沟。 比如你之前基于 GPT 的 API 搞了很多工程化的算法保证角色一致性做了一个绘图工具,现在 Nano Banana 出来,你的产品立刻就会被抛弃了。用户不会有忠诚度的。 但剪映这样的工具肯定不会抛弃,对吧?因为剪映做的工程化,大模型是做不了或不愿意做的。 如何重新思考并建立自己的用户群和核心机制,这是创业公司必须要考虑的事。 Gemini 2.5 Flash Image 的发布,标志着 AI 进入了一个新的阶段。角色一致性、自然对话式生成和高质量的图像编辑,已经让我们看到了未来的影子。 但有一点可以肯定:AI 领域的竞争不再是单点的功能对比,而是生态、交互和用户体验的全面较量。
AI的哥德尔诅咒:DeepMind在修补上帝的漏洞,而OpenAI选择成为“混沌本身” 咱们先用圈外人的话说说,这个“哥德尔不完备性定理”到底是个啥玩意儿。 想象一下,你有一个“绝对完美的逻辑盒子”。盒子里有几条最基础的公理(比如1+1=2),和一套完美的推演规则。理论上,这个盒子应该能证明所有数学真理,对吧? 哥德尔这个“恶魔”,幽幽地告诉你: 1.你这个盒子里,永远有一些真相,是你自己死活都证明不了的。 就像你的眼睛看得见全世界,但永远看不见自己的眼睛。 2.更要命的是,你永远没法在这个盒子里,证明这个盒子本身是“绝对不出错”的。 你无法自证清白。 这就是所有形式语言(比如数学、LEAN、所有编程语言)的宿命。它们再强大,也永远有一个“逻辑的墙外”,一个它们无法触及、无法言说的“真理的阴影面积”。 那自然语言呢? 咱们平时说的“人话”,就是自然语言。它混乱、模糊、充满歧义、不讲逻辑,简直就是个垃圾堆。 但它有一个形式语言永远无法企及的“开放性”。它能站在“逻辑盒子”的外面,指着盒子说事儿。 我们可以用人话,去讨论“哥德尔不完备定理”本身。我们能理解“存在一个系统无法自证的真理”这个概念。我们的语言,可以“越狱”,可以进行“元思考”(Thinking about thinking)。 好了,现在,把这两条路,代入到DeepMind和OpenAI的身上。