#Gemini

向阳乔木
1个月前
应该是上周 Jeff Dean 在斯坦福做了个分享,用AI总结写成文章,视频见评论区 AI 是怎么突然变这么强的? Jeff Dean,Google 的 AI 负责人,他用自己的经历,讲了这个故事。 他说:"我们今天看到的 AI,是过去十五年技术叠加的产物。" 不是一个突破。是一系列突破。 每一个突破,都让 AI 往前跨了一大步。 接下来,让我讲清楚这些突破是什么。 从最早的"模型学会了猫",到今天的"AI 拿奥数金牌"。 2012,模型自己学会认识猫 2012 年。Google Brain 项目。 Jeff Dean 和他的团队,在做一个实验。 他们想知道:AI 能不能自己学会认识东西? 不给标签,不告诉它"这是猫""这是狗"。就给它一堆图片,让它自己看。 他们用了 1000 万个 YouTube 视频帧,随机的。没有任何标注。 然后,他们训练了一个神经网络。网络很大,比以往大 50 到 100 倍。 训练完之后,他们看了看网络顶层的神经元。它们在对什么敏感? 结果让所有人震惊。 有一个神经元,对"猫"特别敏感。你给它一张猫的图片,这个神经元就会被激活。你给它一张狗的图片,它不会被激活。 模型自己学会了"猫"是什么。 没人教它。它自己从 1000 万张图片里,学会了。 这就是无监督学习。 Jeff Dean 说:"这太酷了。" 因为这证明了:AI 可以自己发现概念。不需要人类告诉它"这是什么"。它只需要看够多的数据。 这是 AI 学习能力的起点。 我们讲了 AI 怎么学会"看"。 现在,我们讲 AI 怎么学会"理解语言"。 关键技术:Word2Vec。 以前,计算机处理语言,是把每个词当成一个孤立的符号。"猫"就是"猫"。"狗"就是"狗"。它们之间,没有关系。 但 Word2Vec 不一样。它把每个词,变成一个高维向量。 什么意思?就是,每个词都是一串数字。比如,"国王"可能是 (0.5, 0.8, 0.3, ...)。"女王"可能是 (0.5, 0.2, 0.3, ...)。 但神奇的是:这些向量的方向,是有意义的。 如果你做一个计算:"国王" - "男人" + "女人",你会得到一个新的向量。 这个向量,最接近的词是:"女王"。 这就是 Word2Vec 的魔力。 它不只是把词变成数字。它让语义关系,变成了数学关系。"国王"和"女王"的关系,就像"男人"和"女人"的关系。 这个关系,被编码在向量的方向里。 Jeff Dean 说:"这让机器第一次能'理解'语言。" 不是真的理解。但它能计算语义。 我们讲了 AI 怎么理解语言。 现在,我们讲一个更现实的问题:算力。 2015 年左右。Google 想推出一个改进后的语音识别模型。效果很好,用户会喜欢。 但有一个问题。 Jeff Dean 算了一笔账:如果要用这个模型,Google 需要把计算机数量翻一倍。 你没听错。翻一倍。 这是什么概念?Google 当时已经有几十万台服务器了。翻一倍,意味着再买几十万台。 这根本不现实。 所以,他们必须想办法。 答案是:专用硬件。 他们发现,神经网络有一个特性:它对低精度计算非常宽容。 而且,它的核心就是密集的矩阵乘法。 这两个特性,让他们可以设计专门的芯片。 不用通用的 CPU,也不用 GPU。而是专门为神经网络设计的芯片。 这就是 TPU:Tensor Processing Unit。 2015 年,TPUv1 推出。 它比当时的 CPU 和 GPU,快 15 到 30 倍。能效高 30 到 80 倍。 这解决了算力危机。 后来,他们继续迭代。 最新的系统,比 TPUv2 快了 3600 倍。 Jeff Dean 说:"没有专用硬件,就没有今天的 AI。" 算力,是 AI 的基础设施。 Transformer 改变了一切 我们讲了硬件。现在,我们讲架构。 2017 年。Google 的一个同事,提出了一个新架构。Transformer。 这改变了一切。 在 Transformer 之前,处理语言的模型,都是循环模型。 什么意思? 就是,模型要一个词一个词地处理。 而且,它要把所有信息,压缩到一个向量里。 这很低效。 Transformer 不这么干。 它的核心思想是: 不要压缩,保存所有中间状态。 然后,让模型在需要的时候,去"关注"(Attend to)任何一个状态。 这就是 Self-Attention。 结果呢? 准确率更高。 计算量少了 10 到 100 倍。模型参数小了 10 倍。 这太疯狂了。更快,更准,更小。 而且,Transformer 不只能处理语言。 它还能处理图像。这就是 Vision Transformer(ViT)。 Jeff Dean 说:"Transformer 是现代 AI 的基础。" ChatGPT 用的是 Transformer。 Gemini 用的是 Transformer。 所有你看到的大模型,都是 Transformer。 让模型变聪明的三个技巧 我们讲了 Transformer。 现在,我们讲训练。 怎么让模型变得更聪明?有三个关键技巧。 第一个:稀疏模型。 正常的神经网络,每次预测都要激活整个模型。太浪费了。 稀疏模型不一样。它只激活 1% 到 5% 的参数。剩下的,都在"睡觉"。 这让训练成本降低了 8 倍。 Jeff Dean 说:"Gemini 就是稀疏模型。" 第二个:蒸馏。 这是把知识从大模型转移给小模型。怎么转? 大模型不只告诉小模型"对"或"错"。 它给的是概率分布。这个信号非常丰富。 结果呢?小模型只用 3% 的数据,就能达到大模型的效果。 第三个:思维链。 你给模型一个例子,让它"展示它的工作过程"。比如,做数学题的时候,不是直接给答案,而是一步一步写出推理过程。 这让模型在复杂推理任务上的准确率,显著提升。 这三个技巧,让模型变得更高效、更聪明。 前面我们讲了 AI 的技术基础。 现在,我们讲成果。 2022 年。Google 的研究员们,在为一件事兴奋。 他们的模型,终于能做初中数学题了。准确率:15%。 "约翰有五只兔子,又得了两只,他现在有几只兔子?"这种题。AI 能做对 15%。 他们觉得,这是个突破。 2024 年。两年后。 同一个团队,发布了 Gemini 2.5 Pro。他们让它参加国际数学奥林匹克。 六道题。它做对了五道。 这是金牌水平。 从 15% 的初中数学题,到奥数金牌。两年。 Jeff Dean 说:"这就是 AI 的进步速度。" 不是线性的。不是慢慢变好。 是指数级的。 2022 年,AI 还在学加法。 2024 年,AI 已经在解奥数题了。 那 2026 年呢?我们不知道。 但如果按这个速度,可能会超出我们的想象。 这就是我们今天看到的 AI。它不是慢慢变强的。它是突然变强的。 从 2012 年的"模型学会了猫",到 2024 年的"AI 拿奥数金牌"。 十二年。 AI 从几乎什么都不会,变成了几乎什么都会。 那接下来呢? Jeff Dean 说:AI 将对医疗、教育、科学研究产生巨大影响。 一个不会写代码的人,也能让 AI 帮他创建网站。 这是把专业知识普及给更多人。 但同时,我们也必须正视潜在的风险。 比如,错误信息传播。 AI 可以生成非常逼真的内容。如果被滥用,后果很严重。 Jeff Dean 说:"我们不能对潜在的负面影响视而不见。我们的目标是,在最大化 AI 益处的同时,最小化潜在的弊端。" 这就是 AI 的故事。 从反向传播,到 Transformer,到 Gemini。过去十五年,技术、硬件、算法,全都叠加在一起。 我们今天看到的 AI,是这一切的产物。 而这个故事,还在继续。
宝玉
1个月前
最近数学圈发生了一件很有意思的事。 世界顶级数学家陶哲轩在解决一个 Erdős(埃尔德什)的经典问题时,全流程都在用 AI 做助手——从证明草案,到简化证明,再到形式化验证。 Erdős 是20世纪最高产的数学家之一,一辈子发表了1500多篇论文,提出了无数开放问题。数学圈有个著名的"埃尔德什数"——如果你和他合作过论文,你的埃尔德什数就是1;和他的合作者合作过,就是2,以此类推。爱因斯坦的埃尔德什数是2。 后来有人专门做了一个网站,把他的很多未解决/已解决问题系统整理出来,这就是 Erdos Problems 网站。 陶哲轩讲的是其中的第 367 号问题,属于数论里的一个具体问题,专业数学研究级别的问题。 解决过程大概是这样的: 一位数学家 Wouter van Doorn 先给出一个人类手写的反例证明草案,但里面有一个关键恒等式他没完全证明,只是说:“相信有人能帮我确认一下”。 陶哲轩把这个恒等式扔给 Google 的 Gemini Deepthink 模式。大概十分钟后,Gemini 给出了一份完整证明,还顺带确认了整套论证是成立的。 Gemini 的证明用到了 p-adic 等比较高级的代数数论工具,对这个具体问题来说有点杀鸡用牛刀。于是陶哲轩花了半小时,把 AI 的证明手工转化成更基础、更易懂的版本。 两天后,另一位数学家 Boris Alexeev 用一个叫 Aristotle 的工具(基于 AI + Lean)完成了全套形式化证明,还特意手动检查最终结论,以防 AI 在形式化过程中存在编造。 陶哲轩觉得还没完,又用 Deep Research (同时用了 ChatGPT 和 Gemini)做了一轮文献搜索,看这个问题有没有前人类似工作。结果找到了若干关于连续幂数的相关论文,但没有直接解决第 367 号问题。 整个流程:人类提出猜想 → AI暴力证明 → 人类简化优化 → AI辅助形式化验证。 都在说 Gemini 3 已经到了博士生水平,看来所言非虚,这些事情真的需要数学博士级别才能做的出来,但另一方面,真正的数学家也并没有被 AI 代替:是人类决定哪个问题值得解决,是人类判断AI的p-adic方法太重了需要简化,是人类手工完成最终的形式化表述以验证 AI 的结果是否准确。 AI 做的是那些需要大量计算、符号推演、但方向已经明确的体力活。在 AI 时代,问对问题、甄别结果,比以前更重要了。