向阳乔木

统计数据

702

文章

0

粉丝

0

获赞

4194

阅读

4小时前

三张照片生成的视频，不说估计想不到不是《疯狂的麦克斯》原片。明天发教程。

7小时前

发现一个解决AI生图姿势难题的神器，太赞了！偶然搜到一个相当全面的人体动作姿态网。 AI生图、创作视频时，可以参考姿势。网址见评论区

1天前

这大哥也是牛逼，最近访谈了很多AI圈的大佬。 Youtube频道见评论区

1天前

LLM已死？强化学习教父认为大语言模型是条死路。说这个暴论的人叫理查德·萨顿（Richard Sutton），强化学习创始人之一。他的观点很直接：LLM不是基础人工智能，它只是AI领域的一阵潮流。真正的基础AI应该是强化学习。观点很激进，但他给出的理由值得认真想。第一个致命问题：没有目标的"智能" 萨顿抛出了一个质问：没有目标，还能叫智能吗？他引用约翰·麦卡锡定义，智能的本质是 "实现目标能力的计算部分"。按这个标准，LLM有什么问题呢？ LLM的所谓"目标"只是预测下一个词。你给它一段文字，它告诉你接下来最可能出现什么词。但这算目标吗？萨顿说得很直白：Token 自己跑到你面前，你预测Token，但你根本影响不了它们。这不是关于外部世界的目标，这仅仅是文字接龙游戏。没有目标，就没有"正确"的定义。什么叫做对的事情？在强化学习里，答案很清楚：能给你带来奖励的事情。但LLM呢？它连对错的标准都是模糊的。第二个硬伤：没有真实的世界模型 LLM擅长什么？模仿人类。它能模仿人怎么说话，怎么写作，甚至怎么思考。但萨顿说：模仿语言，不等于理解世界。 LLM能预测一个人会说什么，但它预测不了将会发生什么。这个区别太重要了。真正的世界模型应该让你能够预测行为的后果。比如，我把杯子推下桌子，它会掉到地上摔碎。这是对物理世界的理解。但LLM呢？它只知道"人们通常会说杯子会摔碎"，这是两码事。更关键的是，LLM不会从意外中学习。假设你预测某件事会发生A，结果发生了B。一个真正理解世界的系统会说："咦，我错了，我需要调整我的模型。"但LLM不会。它没有这种"意外"的概念，因为模型从来不是在预测真实世界，它只是在预测训练数据里人们会怎么说。萨顿的总结很犀利：LLM从训练数据中学习，不是从经验中学习。经验是什么？是你做了某件事，然后看到实际发生了什么。这种第一手的互动，才是真正学习的来源。第三个悖论：可扩展性的陷阱萨顿写过一篇著名的文章叫《苦涩的教训》（The Bitter Lesson）。核心思想：历史反复证明，依赖人类知识的方法最终都会输给纯粹依靠计算和学习的方法。很多人觉得LLM正是这个教训的最新例证。你看，用海量数据和算力训练出来的模型，不就超越了传统的规则系统吗？但萨顿说：等着瞧，LLM最终会成为这个教训的反面教材。为什么？因为LLM本质上还是在依赖人类知识。它学的是人类写的文字，说的话，做的事。这些都是人类知识的结晶。萨顿认为，真正具有可扩展性的方法是什么？是系统自己去尝试，自己去观察什么有效，什么无效。不需要任何人告诉它对错，它通过与世界的互动自己学会。这就是强化学习的核心：主体有目标，主体采取行动，主体观察结果，主体调整策略。这个循环可以无限持续，不断进化。而LLM呢？它的学习在训练结束那一刻就停止了。它没法在真实世界里持续学习，因为它根本不知道怎么与世界互动。 LLM就像一个语言模仿大师。它能完美背诵人类所有的剧本和对话，你问它什么，它都能给你一个听起来很像样的回答。但它缺少什么？缺少行动者的能力。它不知道自己想要什么（没有目标）。也不知道说这些话在真实世界里会产生什么后果（没有世界模型）。它只是一个超级复杂的文字接龙机器。真正的智能应该是什么样？应该是一个主体，它有自己的目标，它能与世界互动，它从每次互动中学习，它不断调整自己的策略去更好地实现目标。这才是萨顿眼中的"基础AI"。萨顿的观点不一定全对，但他提的问题值得思考。也许LLM不会"死"，它们在很多应用场景下依然有价值。但如果我们的目标是实现真正的通用人工智能AGI。萨顿的警告值得认真对待：光会说话，不等于会思考。光会模仿，不等于会学习。真正的智能，可能需要目标、需要行动、需要与世界真实的互动。这条路，我们才刚刚开始走。 --- 以上由AI生成，人工编辑排版。视频见评论区

1天前

AI产品蝗虫群的免费课来了。修老师很神秘，但分享的内容总是让大家惊艳。明天下午14:00-15:00，邀请蝗虫1群AI玩家修老师分享。大家都是翘首以盼，申请了个支持1000人在线的飞书研讨会，欢迎预约日历听课。

1天前

AI 语音输入法 Typeless的交互真不错啊。无论是设置引导，还是自动结构化处理，还是选中文本，语音说prompt处理等。大家是发现了什么，为啥扎堆开始做语音输入法？现在已知AI语音输入法。国内有闪电说、智谱的小凹、豆包语音输入等。国外有Monologue、Whispr flow、Spokenly、Typeless等。

1天前

好像是歸藏的群里有人分享的，笑死了

1天前

上周去深圳出差飞机上读完了刘震云的小说《一句顶一万句》。书里大量用“不是”... “而是”这种表达，让人想起标准 AI 味，哈哈哈。😂😂😂 读起来还是很棒的，记住一句话：“日子是过以后，不是过从前。”

1天前

内测了一个国产app的ai视频生成，能音画同步，但实在太抽象了。适合做鬼畜视频。

3天前

用gemini中的nano banana pro画图，可以要求先搜索资料再画图。出来的图片质量和准确性会大幅提升。

#Gemini #画图 #搜索资料 #图片质量提升 #AI

3天前

谁用过谷歌搜索的“手气不错”按钮？输入关键词，点击它，直接跳搜索结果第一名网页。直接跳转搜索结果，不展示广告。谷歌每年因此会损失1%搜索广告收入。为什么谷歌会一直保留到现在？给用户好体验、愉悦感，会提升用户忠诚度。谷歌AI模式也能快速给用户价值，未来应该会替换“手气不错”按钮。

#谷歌搜索 #手气不错按钮 #用户体验 #广告收入损失 #AI模式

4天前

AI产品蝗虫群友深圳聚会（部分）

澎湃AI新闻合辑：未来科技与社会热点交锋· 112 条信息

#AI产品 #深圳聚会 #蝗虫群友

5天前

我想做全国甚至全球最好的AI微信交流群，求大家支招。

#AI #微信交流群 #全球 #求支招 #积极

6天前

应该是上周 Jeff Dean 在斯坦福做了个分享，用AI总结写成文章，视频见评论区 AI 是怎么突然变这么强的？ Jeff Dean，Google 的 AI 负责人，他用自己的经历，讲了这个故事。他说："我们今天看到的 AI，是过去十五年技术叠加的产物。" 不是一个突破。是一系列突破。每一个突破，都让 AI 往前跨了一大步。接下来，让我讲清楚这些突破是什么。从最早的"模型学会了猫"，到今天的"AI 拿奥数金牌"。 2012，模型自己学会认识猫 2012 年。Google Brain 项目。 Jeff Dean 和他的团队，在做一个实验。他们想知道：AI 能不能自己学会认识东西？不给标签，不告诉它"这是猫""这是狗"。就给它一堆图片，让它自己看。他们用了 1000 万个 YouTube 视频帧，随机的。没有任何标注。然后，他们训练了一个神经网络。网络很大，比以往大 50 到 100 倍。训练完之后，他们看了看网络顶层的神经元。它们在对什么敏感？结果让所有人震惊。有一个神经元，对"猫"特别敏感。你给它一张猫的图片，这个神经元就会被激活。你给它一张狗的图片，它不会被激活。模型自己学会了"猫"是什么。没人教它。它自己从 1000 万张图片里，学会了。这就是无监督学习。 Jeff Dean 说："这太酷了。" 因为这证明了：AI 可以自己发现概念。不需要人类告诉它"这是什么"。它只需要看够多的数据。这是 AI 学习能力的起点。我们讲了 AI 怎么学会"看"。现在，我们讲 AI 怎么学会"理解语言"。关键技术：Word2Vec。以前，计算机处理语言，是把每个词当成一个孤立的符号。"猫"就是"猫"。"狗"就是"狗"。它们之间，没有关系。但 Word2Vec 不一样。它把每个词，变成一个高维向量。什么意思？就是，每个词都是一串数字。比如，"国王"可能是 (0.5, 0.8, 0.3, ...)。"女王"可能是 (0.5, 0.2, 0.3, ...)。但神奇的是：这些向量的方向，是有意义的。如果你做一个计算："国王" - "男人" + "女人"，你会得到一个新的向量。这个向量，最接近的词是："女王"。这就是 Word2Vec 的魔力。它不只是把词变成数字。它让语义关系，变成了数学关系。"国王"和"女王"的关系，就像"男人"和"女人"的关系。这个关系，被编码在向量的方向里。 Jeff Dean 说："这让机器第一次能'理解'语言。" 不是真的理解。但它能计算语义。我们讲了 AI 怎么理解语言。现在，我们讲一个更现实的问题：算力。 2015 年左右。Google 想推出一个改进后的语音识别模型。效果很好，用户会喜欢。但有一个问题。 Jeff Dean 算了一笔账：如果要用这个模型，Google 需要把计算机数量翻一倍。你没听错。翻一倍。这是什么概念？Google 当时已经有几十万台服务器了。翻一倍，意味着再买几十万台。这根本不现实。所以，他们必须想办法。答案是：专用硬件。他们发现，神经网络有一个特性：它对低精度计算非常宽容。而且，它的核心就是密集的矩阵乘法。这两个特性，让他们可以设计专门的芯片。不用通用的 CPU，也不用 GPU。而是专门为神经网络设计的芯片。这就是 TPU：Tensor Processing Unit。 2015 年，TPUv1 推出。它比当时的 CPU 和 GPU，快 15 到 30 倍。能效高 30 到 80 倍。这解决了算力危机。后来，他们继续迭代。最新的系统，比 TPUv2 快了 3600 倍。 Jeff Dean 说："没有专用硬件，就没有今天的 AI。" 算力，是 AI 的基础设施。 Transformer 改变了一切我们讲了硬件。现在，我们讲架构。 2017 年。Google 的一个同事，提出了一个新架构。Transformer。这改变了一切。在 Transformer 之前，处理语言的模型，都是循环模型。什么意思？就是，模型要一个词一个词地处理。而且，它要把所有信息，压缩到一个向量里。这很低效。 Transformer 不这么干。它的核心思想是：不要压缩，保存所有中间状态。然后，让模型在需要的时候，去"关注"（Attend to）任何一个状态。这就是 Self-Attention。结果呢？准确率更高。计算量少了 10 到 100 倍。模型参数小了 10 倍。这太疯狂了。更快，更准，更小。而且，Transformer 不只能处理语言。它还能处理图像。这就是 Vision Transformer（ViT）。 Jeff Dean 说："Transformer 是现代 AI 的基础。" ChatGPT 用的是 Transformer。 Gemini 用的是 Transformer。所有你看到的大模型，都是 Transformer。让模型变聪明的三个技巧我们讲了 Transformer。现在，我们讲训练。怎么让模型变得更聪明？有三个关键技巧。第一个：稀疏模型。正常的神经网络，每次预测都要激活整个模型。太浪费了。稀疏模型不一样。它只激活 1% 到 5% 的参数。剩下的，都在"睡觉"。这让训练成本降低了 8 倍。 Jeff Dean 说："Gemini 就是稀疏模型。" 第二个：蒸馏。这是把知识从大模型转移给小模型。怎么转？大模型不只告诉小模型"对"或"错"。它给的是概率分布。这个信号非常丰富。结果呢？小模型只用 3% 的数据，就能达到大模型的效果。第三个：思维链。你给模型一个例子，让它"展示它的工作过程"。比如，做数学题的时候，不是直接给答案，而是一步一步写出推理过程。这让模型在复杂推理任务上的准确率，显著提升。这三个技巧，让模型变得更高效、更聪明。前面我们讲了 AI 的技术基础。现在，我们讲成果。 2022 年。Google 的研究员们，在为一件事兴奋。他们的模型，终于能做初中数学题了。准确率：15%。 "约翰有五只兔子，又得了两只，他现在有几只兔子？"这种题。AI 能做对 15%。他们觉得，这是个突破。 2024 年。两年后。同一个团队，发布了 Gemini 2.5 Pro。他们让它参加国际数学奥林匹克。六道题。它做对了五道。这是金牌水平。从 15% 的初中数学题，到奥数金牌。两年。 Jeff Dean 说："这就是 AI 的进步速度。" 不是线性的。不是慢慢变好。是指数级的。 2022 年，AI 还在学加法。 2024 年，AI 已经在解奥数题了。那 2026 年呢？我们不知道。但如果按这个速度，可能会超出我们的想象。这就是我们今天看到的 AI。它不是慢慢变强的。它是突然变强的。从 2012 年的"模型学会了猫"，到 2024 年的"AI 拿奥数金牌"。十二年。 AI 从几乎什么都不会，变成了几乎什么都会。那接下来呢？ Jeff Dean 说：AI 将对医疗、教育、科学研究产生巨大影响。一个不会写代码的人，也能让 AI 帮他创建网站。这是把专业知识普及给更多人。但同时，我们也必须正视潜在的风险。比如，错误信息传播。 AI 可以生成非常逼真的内容。如果被滥用，后果很严重。 Jeff Dean 说："我们不能对潜在的负面影响视而不见。我们的目标是，在最大化 AI 益处的同时，最小化潜在的弊端。" 这就是 AI 的故事。从反向传播，到 Transformer，到 Gemini。过去十五年，技术、硬件、算法，全都叠加在一起。我们今天看到的 AI，是这一切的产物。而这个故事，还在继续。

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#AI #Jeff Dean #transformer #Gemini #AI 发展历程

1周前

正在参加一个国内上市的芯片公司的新品发布和投资人见面会。做硬件和做软件的，果然行业黑话差异有点大。这种煎熬的体验也是很新奇。

#芯片公司 #新品发布 #投资人见面会 #硬件 #软件

1周前

AI在重新定义芯片该长什么样。芯片也在决定AI能走多远。有三个趋势： 1. 从通用走向专用。以前大家都用通用GPU跑AI。但现在会发现，针对大模型推理、训练、端侧部署。芯片的设计逻辑完全不一样。未来3-5年，我觉得会出现更多专用AI芯片。比如说，训练芯片要堆算力，推理芯片要省功耗，端侧芯片要低延迟。英伟达现在也在分化产品线，H系列做训练，L系列做推理。国内像壁仞、燧原这些公司，也在找差异化定位。未来不会一家通吃，会形成 "训练有训练的王者，推理有推理的霸主，端侧有端侧的玩家" 这样的格局。 2. 存算一体突破，解决内存墙问题。现在大模型最大的瓶颈不是算力，是数据搬运。芯片要不停地从内存读数据、算完再写回去，这个过程太慢、太耗电。存算一体就是把计算和存储放在一起，数据不用来回搬了。技术如果突破，对AI的影响巨大。清华、中科院、还有一些创业公司都在做这个方向。未来3-5年，如果存算一体芯片能量产。让大模型的推理成本降低一个数量级，很多现在做不了的应用到时就能做了。 3. 芯片和算法一起优化。以前算法工程师写代码，芯片工程师做芯片，两边各干各的。但现在很多公司在做联合设计。算法知道芯片的特性，芯片针对算法做优化。苹果就是，他们的神经网络引擎和iOS的AI功能是一起设计的，所以iPhone上跑AI模型很流畅。特斯拉的FSD芯片也是这样，针对自动驾驶算法定制的。国内觉得华为在这方面做得比较好。昇腾芯片和盘古大模型、鸿蒙系统是打通的。未来这种软硬一体的能力，会成为核心竞争力。

#中美芯片战：英伟达求生，中国突围· 122 条信息

#AI芯片 #专用芯片 #存算一体 #软硬一体 #芯片算法联合优化

1周前

项目地址

1周前

怪不得这个Github项目，这么短时间竟然有5k多 Star 原来是AK写的，名叫“LLM Council” 直译过来叫 “大模型理事会”。一次性调用多个不同大模型，互相匿名打分、排名。消除偏见，总结输出质量最好的答案。三步： ① 并行收集各模型回答； ② 匿名互评与排名，减少偏见（按准确性和洞见打分） ③ 主席模型综合输出单一高质量答案。

#LLM Council #大模型理事会 #匿名互评 #消除偏见 #高质量答案

1周前

如果看不懂如何安装一些开源的Github应用。可以打开Claude Code输入： “一步步带我安装部署这个开源github项目 [ Github URL]” 后续在AI引导下，一步步操作完成。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#开源项目 #GitHub #Claude Code #AI引导 #安装部署

1周前

入住一家深圳的酒店，广东电信的WiFi上网太拉胯了。手机wifi连上，弹出登录页面，输入手机，发送短信，没有自动获取短信。切换到短信查看验证码，登录界面不见了，又得重头输入... 好在第二次发送的短信还有效，终于搞定。然后，发现Mac电脑连上wifi也不弹出认证页面。修改DNS为 8.8.8.8 ，检查关掉所有代理。输入192.168.1.1 强制跳转认证页面，输入手机号验证码登录。终于上网成功。

#深圳酒店 #广东电信WiFi #上网体验差 #短信验证码登录 #网络认证

1周前

Stable Diffusion背后的秘密：原来一直在去噪，不是在画图！ --- 你可能用过 Stable Diffusion。当输入"一只猫坐在沙发上"。然后，你看着进度条，一点一点往前走。 10%... 20%... 30%... 图像慢慢从模糊变清晰。一开始，全是噪点。然后，隐约能看到一些形状。再然后，能看到猫的轮廓。最后，一张清晰的图出现了。你有没有想过，它到底在干什么？答案是：去噪。它不是在"画"图。它是在"去噪"。一开始，给它一张纯噪声图。就是那种电视没信号时的雪花屏。然后，它一步一步把噪声去掉。每去掉一点，图就清晰一点。去了 50 步，图就清晰了。这就是 DDPM：Denoising Diffusion Probabilistic Model。（去噪扩散概率模型）听起来很复杂，但核心就是两个字：去噪。但这里有个神奇的地方：它怎么知道该去成什么样？我是说，同样是一堆噪声，你可以去成猫，可以去成狗，可以去成车。它怎么知道你要的是猫？答案是：你告诉它的。你输入"一只猫坐在沙发上"。这段文字，会被变成一个向量。然后，在每一步去噪的时候，模型都会看这个向量，知道：哦，你要的是猫，不是狗。所以，它去噪的方向，是朝着"猫"去的。这就是为什么，你输入不同的文字，会生成不同的图。因为去噪的方向不一样。而这一切，都建立在一个简单的想法上：生成，就是反向去噪。你先学会怎么加噪声。然后，反过来，学会怎么去噪声。去噪的终点，就是生成的结果。注意，这是 2020 年的论文突破。从那之后，所有最好的图像生成模型， Stable Diffusion、Midjourney、DALL-E 2，全都用这个思路。不是 GAN，是 Diffusion。因为 Diffusion 更稳定，更可控，生成的图更真实。另外，你玩Stable Diffusion时，可能调过下面参数： Steps: 50 CFG Scale: 7.5 Sampler: DPM++ 2M Karras 代码跑通了，图生成了。但你可能不知道这些参数是什么意思。 Steps 是去噪的次数。 Stable Diffusion 不是一次性生成图。它是一步一步去噪。 Steps = 50，就是去 50 次噪。每去一次，图就清晰一点。 Steps 越多，图越清晰，但也越慢。 Steps 越少，图越模糊，但也越快。一般来说，50 步够了。 CFG Scale 是文字引导的强度。 CFG 是 Classifier-Free Guidance。意思是：你输入的文字，对生成的影响有多大。 CFG Scale = 1，文字几乎没影响，模型随便生成。 CFG Scale = 20，文字影响很大，模型严格按照文字生成。 CFG Scale = 7.5，是一个平衡。既听文字的，又有一点创造性。太低，生成的图和文字不匹配。太高，生成的图太死板，没有惊喜。 Sampler 是去噪的方法。 DDPM 说的是"去 1000 次噪"。但 1000 次太慢了。所以，后来有人发明了更快的方法。 DPM++、Euler、DDIM... 这些都是"怎么更快地去噪"。有的方法，20 步就能达到 1000 步的效果。有的方法，更稳定。有的方法，更有创造性。你选哪个 Sampler，就是在选"怎么去噪"。这就是这些参数的意思。 Steps：去几次噪。 CFG Scale：文字影响有多大。 Sampler：用什么方法去噪。 ---- AI生成好读的科普文，很适合学习复杂的概念。

#Stable Diffusion #去噪 #AI 图像生成 #DDPM #深度学习

1周前

面试官问我：能用一句话解释 Word2Vec 吗？我当时脑子里全是"Skip-gram""CBOW""负采样"... 但我知道，这些词说出来，面试就结束了。后来，我想明白了。 Word2Vec 就是给词做定位。就像给城市做定位。北京和上海，都是大城市，所以它们在"城市规模"这个维度上很接近。北京和天津，地理位置近，所以它们在"地理位置"这个维度上很接近。 Word2Vec 做的事情是一样的。它给每个词找一个位置。意思相近的词，位置就近。怎么找这个位置？看它周围都是谁。 "苹果"周围经常是"水果""香蕉""新鲜"。 "手机"周围经常是"电脑""屏幕""充电"。所以机器知道，"苹果"应该和"香蕉"靠近，和"手机"远离。这就是 Word2Vec。不是教机器词典，是让机器看大量文本，自己学会每个词应该在哪里。学完之后，你就可以算任意两个词有多像。甚至可以做加减法： King - Man + Woman = Queen 因为"性别"这个维度，在这个空间里是可以被分离出来的。这是 2013 年的突破。从那之后，机器才真的能"理解"语义。所有现在的 NLP，都建立在这个基础上。面试官听完，点了点头。我过了。 --- 由 AI 生成，科普 word2vec 论文核心概念。

#Word2Vec #NLP #语义理解 #词向量 #AI面试

1周前

为什么一定要做自己的产品？大家经常聊“睡后收入”。但没人告诉你：睡后收入的本质，不是钱自己会来，是你变贵了。什么叫变贵？就是你做一次的东西，可以卖一百次、一千次。你写一篇文章，可以被搜索到一万次，帮助很多人。你录一个课程，可以被购买三年。你做一个模板，可以被下载无数遍。你没有睡后收入，不是因为你不够努力。是因为你做的事情，只能卖一次。你的时间在卖，你的体力在卖，但你的成果没有在"复利"。所以，得先想明白一件事：现在做的，能不能脱离你的时间，自己产生价值？如果不能，那你做得再多，也只是在用命换钱。 --- 以上由 AI 生成，觉得有道理。但要做什么产品，每个人都不一样。需要一点路径依赖，也需要一点机缘。

独立创业者如何突破零收入困境，迈向月入1000元· 307 条信息

#睡后收入 #个人产品 #价值复利 #时间价值 #AI生成

1周前

论文整理＞配图＞发公众号，一个工具搞定！ Youmind 当前布局交互不科学，但还是掩盖不住好用。 1. 打开空白文档，右侧AI 助手 “收集整理AI领域最值看的20篇论文，给出理由，访问地址pdf 也都放到文档。” 2. 复制任意文本，点击“图解万物” 自动调用Nano Banana Pro生成多张图片辅助理解。图片还能插到文档中。 3. 学习整理结束，复制发微信公众号点文章右上角... 选择 “Copy as Wechat” 支持设置样式和自定义CSS，快速发公众号。 --- 其实不止是学论文，学其他内容也适合这个Workflow。但是，Youmind一些优秀功能藏的有点深。比如：添加Youtube和小宇宙链接，自动获取转写文本。不仔细用，很难发现，抽空写个详细教程吧。

#YouMind #AI论文整理 #效率工具 #微信公众号 #知识管理

1周前

不露脸、不剪辑，3步生成口播短视频！ 1. 刚才的提示词生成文案脚本。 2. 文案发给Listenhub新功能“Explainer Video” 3.选自己的声音TTS，一分钟生成视频

#口播短视频 #ListenHub #Explainer Video #TTS #AI

...