向阳乔木
2个月前
Stable Diffusion背后的秘密:原来一直在去噪,不是在画图! --- 你可能用过 Stable Diffusion。 当输入"一只猫坐在沙发上"。 然后,你看着进度条,一点一点往前走。 10%... 20%... 30%... 图像慢慢从模糊变清晰。 一开始,全是噪点。 然后,隐约能看到一些形状。 再然后,能看到猫的轮廓。 最后,一张清晰的图出现了。 你有没有想过,它到底在干什么? 答案是:去噪。 它不是在"画"图。 它是在"去噪"。 一开始,给它一张纯噪声图。 就是那种电视没信号时的雪花屏。 然后,它一步一步把噪声去掉。 每去掉一点,图就清晰一点。 去了 50 步,图就清晰了。 这就是 DDPM:Denoising Diffusion Probabilistic Model。 (去噪扩散概率模型) 听起来很复杂,但核心就是两个字:去噪。 但这里有个神奇的地方: 它怎么知道该去成什么样? 我是说,同样是一堆噪声, 你可以去成猫,可以去成狗,可以去成车。 它怎么知道你要的是猫? 答案是:你告诉它的。 你输入"一只猫坐在沙发上"。 这段文字,会被变成一个向量。 然后,在每一步去噪的时候, 模型都会看这个向量, 知道:哦,你要的是猫,不是狗。 所以,它去噪的方向,是朝着"猫"去的。 这就是为什么,你输入不同的文字, 会生成不同的图。 因为去噪的方向不一样。 而这一切,都建立在一个简单的想法上: 生成,就是反向去噪。 你先学会怎么加噪声。 然后,反过来,学会怎么去噪声。 去噪的终点,就是生成的结果。 注意,这是 2020 年的论文突破。 从那之后,所有最好的图像生成模型, Stable Diffusion、Midjourney、DALL-E 2, 全都用这个思路。 不是 GAN,是 Diffusion。 因为 Diffusion 更稳定,更可控,生成的图更真实。 另外,你玩Stable Diffusion时,可能调过下面参数: Steps: 50 CFG Scale: 7.5 Sampler: DPM++ 2M Karras 代码跑通了,图生成了。 但你可能不知道这些参数是什么意思。 Steps 是去噪的次数。 Stable Diffusion 不是一次性生成图。 它是一步一步去噪。 Steps = 50,就是去 50 次噪。 每去一次,图就清晰一点。 Steps 越多,图越清晰,但也越慢。 Steps 越少,图越模糊,但也越快。 一般来说,50 步够了。 CFG Scale 是文字引导的强度。 CFG 是 Classifier-Free Guidance。 意思是:你输入的文字,对生成的影响有多大。 CFG Scale = 1,文字几乎没影响,模型随便生成。 CFG Scale = 20,文字影响很大,模型严格按照文字生成。 CFG Scale = 7.5,是一个平衡。 既听文字的,又有一点创造性。 太低,生成的图和文字不匹配。 太高,生成的图太死板,没有惊喜。 Sampler 是去噪的方法。 DDPM 说的是"去 1000 次噪"。 但 1000 次太慢了。 所以,后来有人发明了更快的方法。 DPM++、Euler、DDIM... 这些都是"怎么更快地去噪"。 有的方法,20 步就能达到 1000 步的效果。 有的方法,更稳定。 有的方法,更有创造性。 你选哪个 Sampler,就是在选"怎么去噪"。 这就是这些参数的意思。 Steps:去几次噪。 CFG Scale:文字影响有多大。 Sampler:用什么方法去噪。 ---- AI生成好读的科普文,很适合学习复杂的概念。
dontbesilent
2个月前
AI 文案能力倒置定理 作者:dontbesilent 核心定理 当一个人抱怨 AI 生成的文案「有 AI 味」时。这种判断往往揭示了一个有趣的现象:评判者将本该由自己承担的审美责任。不自觉地转移给了工具本身。 三大公理 公理一:审美能力决定判断标准 一个人对文案好坏的判断。取决于他是否具备逻辑审美能力。没有这种能力的人。无法建立真正的评判规则。只能抓住「AI 味」这种表面特征作为伪标准。 公理二:能力缺失导致态度缺失 对文字的尊重态度。源于对文字质量的判断能力。当一个人不具备逻辑审美能力时。他无法形成「什么是好文案」的认知。因此也无法建立尊重文字的态度。 公理三:工具放大使用者的本质 AI 是能力放大器。而非能力替代品。有审美能力的人用 AI 提升效率。没有审美能力的人用 AI 暴露缺陷。然后将责任倒置给工具。 三大推论 推论一:抱怨 AI 的人恰恰不懂文案 越是强调「AI 味」的人。越可能缺乏真正的文案判断力。因为他们无法指出具体问题。只能用模糊标签掩盖自己的能力空白。 推论二:「AI 味」是伪标准的自我安慰 当失去真正的评判标准时。人们会制造伪标准来维持判断感。「AI 味」就是这样一个让人自以为有鉴别力的安全区。 推论三:责任倒置是能力倒置的必然结果 把文案质量的责任推给 AI。本质上是把自己应该具备的审美能力倒置给工具。这种倒置让使用者永远停留在「抱怨者」而非「创造者」的位置。 结论 AI 时代的真正分水岭。在于使用者能否驾驭工具的输出——那些习惯抱怨 AI 的人。其实是在用工具的镜子。照见了自己能力的边界。
范凯谈AI
2个月前
我这两天仔细研究了一下Google的TPU,简单写一下我的初步结论: 1. Google TPU在特定的场景下,例如超大规模模型训练(万卡)和推理上,能效比超过了同等算力的英伟达GPU,能效比应该至少提升30%,也有说更高的。 为啥TPU强? 除了TPU是更有针对性的ASIC之外,TPU为大规模并行计算做了硬件的优化(光互联)和软件的优化(JAX/XLA),从理论上就优于更加考虑通用性和兼容性的GPU。 2. Google的TPU也拥有一个虽然规模小很多,但是完整的软硬件生态,就是JAX/XLA/TPU,类似于英伟达的Pytorch/CUDA/GPU。 如果说英伟达的生态是PC/Windows组合的话,Google就是Mac/MacOS组合。英伟达是大众普及型,兼容性好,市占率高;而Google是小众的,兼容性差,专业用户心头好。 只有那些极致追求性能,并且需要超大规模训练和推理的厂商有必要使用JAX/XLA/TPU,其他人其实没啥必要,得不偿失。 当然Mac机也可以跑Windows,PC机也可以装MacOS,所以马斯克的xAI虽然使用英伟达的H100 GPU,但用的是JAX,为了追求极致的压榨性能。 3. 想要自研AI芯片的,你得能搞出来一整套JAX/XLA/TPU来。Google搞TPU和Tensorflow/JAX有好多年历史了。其他想要复制Google自研芯片的,无论是AMZN,MSFT,META,我的判断是:没戏! 因为你不是找AVGO设计ASIC芯片那么简单的事情,你要配合设计XLA编译器,设计JAX这样的并行计算框架,现有的软件还要适配和兼容,那就不是两三年可以搞定的。更何况AMZN,MSFT,META自己训练模型都没搞出来啥成果,你还搞更底层的?不配啊! 所以结论:Google的成功不可复制。 4. Google会不会卖TPU,冲击英伟达的主营业务? 从逻辑上来说基本不可能。因为TPU只有在超大规模训练和推理上有明显优势,但兼容性差,会JAX的程序员也少,编程门槛还很高。因此TPU在非大型客户市场,根本不具备竞争力。 而大型的潜在客户无非就是那几个:OpenAI,Anthropic,AMZN,MSFT,META,xAI,Oracle。不是大模型厂商,就是云厂商。 OpenAI是Google的模型直接竞争对手,AMZN和MSFT是Google的云市场直接竞争对手,你说Google会不会资敌?我说不会。 而xAI呢,马斯克和OpenAI,Google都是死敌。 Anthropic倒是Google投资的,所以Anthropic租用Google云的TPU训练Claude模型。而META现在求着Google想买TPU,这两家竞争关系不那么强,我猜大概率也不会卖。 这么算下来,其实直接卖TPU没多少市场的。所以Google的现在做法就是在云上卖TPU算力,这个就香多了。想追求极致能效比的大规模推理,又不想自己建机房的,用Google云服务不就是最好的吗? 5. 对英伟达的冲击:有,但是没有那么强。 前面说了,Google的成功不可复制。所以其他客户还是会买英伟达。真正减少的市场份额主要是两类: 1. Google自己会减少对英伟达GPU的采购需求; 2. 租用Google云端TPU的厂商,例如Anthropic会减少对英伟达GPU的采购需求; 所以英伟达在未来的2-3年内,可能统治力会稍有下降,例如AI算力芯片的市占率从90%缓慢下滑到80%左右。但我认为并不会改变英伟达的商业逻辑。 就像苹果Mac电脑的普及,虽然让Windows的市占率从99%下降到了90%。但不改变Windows的垄断格局。最终颠覆Windows的是PC市场饱和了,然后手机市场兴起了。 6. Google确实现在很厉害,非常厉害 1. AI算力上,在超大规模的模型训练和推理方面,拥有了完整的生态闭环:JAX/XLA/TPU,不输英伟达; 2. AI Infra上,Google Cloud虽然市占率不如AMZN和MSFT,但成长速度很快。而且TPU的租赁费用相比GPU还有价格优势; 3. AI模型上,Gemini 3在很多方面完全不输GPT-5.1,甚至有超越,基于云成本优势,Gemini可以提供更便宜的API调用价格,这样反过来还能提供Gemini优势; 4. AI产品上,搜索+AI Mode;知识产品Notebook LM;还有生成式UI这样惊艳的创意。考虑到Google海量的C端用户体量,实际上非常有希望。 关键是Google在以上的AI领域形成了一个从硬件、基础设施、模型和产品的完整闭环,还能互相加强。 所以我的结论就是:在英伟达已经有不小仓位的情况下,我打算把本来加仓英伟达的钱留给Google了。
宝玉
2个月前
最近数学圈发生了一件很有意思的事。 世界顶级数学家陶哲轩在解决一个 Erdős(埃尔德什)的经典问题时,全流程都在用 AI 做助手——从证明草案,到简化证明,再到形式化验证。 Erdős 是20世纪最高产的数学家之一,一辈子发表了1500多篇论文,提出了无数开放问题。数学圈有个著名的"埃尔德什数"——如果你和他合作过论文,你的埃尔德什数就是1;和他的合作者合作过,就是2,以此类推。爱因斯坦的埃尔德什数是2。 后来有人专门做了一个网站,把他的很多未解决/已解决问题系统整理出来,这就是 Erdos Problems 网站。 陶哲轩讲的是其中的第 367 号问题,属于数论里的一个具体问题,专业数学研究级别的问题。 解决过程大概是这样的: 一位数学家 Wouter van Doorn 先给出一个人类手写的反例证明草案,但里面有一个关键恒等式他没完全证明,只是说:“相信有人能帮我确认一下”。 陶哲轩把这个恒等式扔给 Google 的 Gemini Deepthink 模式。大概十分钟后,Gemini 给出了一份完整证明,还顺带确认了整套论证是成立的。 Gemini 的证明用到了 p-adic 等比较高级的代数数论工具,对这个具体问题来说有点杀鸡用牛刀。于是陶哲轩花了半小时,把 AI 的证明手工转化成更基础、更易懂的版本。 两天后,另一位数学家 Boris Alexeev 用一个叫 Aristotle 的工具(基于 AI + Lean)完成了全套形式化证明,还特意手动检查最终结论,以防 AI 在形式化过程中存在编造。 陶哲轩觉得还没完,又用 Deep Research (同时用了 ChatGPT 和 Gemini)做了一轮文献搜索,看这个问题有没有前人类似工作。结果找到了若干关于连续幂数的相关论文,但没有直接解决第 367 号问题。 整个流程:人类提出猜想 → AI暴力证明 → 人类简化优化 → AI辅助形式化验证。 都在说 Gemini 3 已经到了博士生水平,看来所言非虚,这些事情真的需要数学博士级别才能做的出来,但另一方面,真正的数学家也并没有被 AI 代替:是人类决定哪个问题值得解决,是人类判断AI的p-adic方法太重了需要简化,是人类手工完成最终的形式化表述以验证 AI 的结果是否准确。 AI 做的是那些需要大量计算、符号推演、但方向已经明确的体力活。在 AI 时代,问对问题、甄别结果,比以前更重要了。