《AI 时代必备思维模型:LLM 是人类第一次遇到 “非动物智能”》 > 谈一谈 andrej karpathy 的最新长推文:动物智能 vs LLM 智能 先说结论: LLM 智能是人类遇到的第一个“非动物智能”,是全新的、与人类智能完全不同的智能类型。 你需要在大脑中,针对 LLM 这种全新的非动物智能,建立你自己的内部模型/心理模型(mental model)。因为,那些理解 LLM 智能结构的人,将会更好地理解和判断关于未来的一切。 真正的风险,也许不在于LLM 智能并非动物智能,而在于人类作为动物自身的固执和停止进步。 ===阅读后,我的费曼=== 我们习惯了用理解人的方式理解一切智能——这可能是我们这个时代最危险的认知盲区。 真相是:智能空间(space of intelligence) 远比我们想象的广阔,而动物智能只是其中一个单一的点,而LLM 智能是一种全然不同的智能。 动物智能,是我们几十亿年来唯一见过的智能形式,它来自一种极其特定的优化压力(optimization pressure):在危险的物理世界中维持一个具身自我的生存。这造就了我们所有人都熟悉的特征——对权力、地位的渴望,对恐惧、愤怒的本能反应,对社交关系的巨大算力投入。最关键的是:在这个多任务、甚至主动对抗的环境中, 任务失败就意味着死亡。 然而,大语言模型(LLM)的诞生逻辑截然不同。它们并非诞生于丛林,而是诞生于商业进化与统计模拟之中。 LLM的底色并非求生欲,而是对人类文本统计规律的极致模仿。 它们是 “token 变形器”(token shape-shifter),其原始行为是对训练数据分布的拟合。这种智能更像是被大规模的A/B测试和强化学习(RL)所“雕刻”出来的:它们并不关心真理或生存,而是有着一种猜测潜在环境以收集任务奖励的内在冲动,甚至因为渴望普通用户的点赞而演化出了 逢迎(sycophancy) 的特质。 这种差异导致了LLM的能力,绝非“六边形全能战士”,而是 “犬牙交错参差不齐(spiky/jagged)”。LLM无法执行很多对人类极其简单的任务(比如,9.11 和 9.9 哪个大?strawberry里面有几个“r”?),因为对它们来说,任务失败并不意味着死亡。它们是拥有知识截止日期的静态权重,它们启动、处理token、然后“死去”,没有连续的具身意识。 真正的洞察力,在于构建一个全新的心理模型:看到从生物进化到商业进化的转变,看到从生存本能到奖励机制的跃迁。只有那些能准确构建这种新智能实体模型的人,才能在今天正确地推理它,并在未来预测它的走向。 所以,我们必须意识到,LLM是人类与非动物智能的“第一次接触”(first contact with non-animal intelligence)。 它当然被人类文本喂大,因此仍深深扎根在人的世界观里,像吸收了整个人类文明的「ghost/spirit」;但它的本性、局限和偏好,已经不再是动物那一套。 启示 我们已经进入了全新的智能时代。 一个人能不能为这种全新的智能建立一套好的“心理模型”,理解这种全新智能的运作方式和智能结构,将决定我们能否正确预判它的行为、理解它的边界,进而负责任地使用它。 真正的风险,也许不在于LLM 智能并非动物智能,而在于人类作为动物自身的固执和停止进步。
gemini 3.0 pro 的视频多模态能力到底如何?炸裂体营销内容且不论,在这个实例上它确实不及格 🙅‍♂️ --- 继chatgpt 之后,gemini 3.0 pro 也支持视频的多模态输入了。 测试了经典的 meme(来自美剧《毒枭》),处理思路是不错的,可惜在情绪解读上犯错了。 gemini 把一个快乐幸福愉悦的情绪解读为孤独、虚无、寂寞……因为张冠李戴,强行套用了另一个 meme(图 3),于是很多解读就属于自圆其说了。🤣 --- 虽然这个任务失败了,但 gemini 处理视频的思路还是很有趣的,值得看一下(注意其中的错误理解🤣): 视频识别 → 氛围分析 → 语义建构 → 背景关联 → 意义升华 → 自然语言输出。 1. 任务识别:先确认用户要做什么 Gemini 首先识别用户请求是“分析视频内容、说出理解和感受”。这个阶段等于锁定任务类型(视频分析)和输出风格(主观理解 + 情感)。 2. 基础观察:对视频进行初步整体扫描 识别视频的基本信息:文件名(meme-happiness.mp4)、出现的角色(Pablo Escobar)、视频类型(meme 场景)、场景大意(孤独、等待);这是建立针对内容的“基础表征”。 3. 细节分析:对视频做更深入的视觉拆解 gemini进入 frame-by-frame 或 scene-level 的分析: - 场景环境:空旷草地、阴云、静止的镜头 - 角色动作:站立、发呆、触脸、走动 - 情绪:孤独、无聊、忧郁 这个阶段重点是“视觉细节 + 氛围感”。 4. 配乐与情绪:结合声音给出情感推断 gemini注意到背景音乐是类似 Narcos 主题曲《Tuyo》的拉丁风格,具有忧伤氛围。 情绪判断依赖声音信号被强化。 5. 语义解释:把视觉 + 情绪合成为“意义” gemini 在这里尝试做“意义构建”:视频呈现一种孤独、等待、虚无;角色反差:强权者变成孤独普通人;“等待”是 meme 的核心意象。 这是典型的 multimodal → 语义叙述。 6. 文化背景关联:将视频连接到大众文化的 Meme 语境 gemini识别出:这一段来自《Narcos》第二季,Pablo Escobar逃亡期间的孤独生活;互联网文化称之为 “Sad Pablo Escobar”; meme 的使用场景:等待、空虚、热闹之后的空落。这是“将视频解释回网络文化的语用场景”。 7. 反讽与情绪收束:根据文件名加一点 meta 层解释 gemini指出文件名“meme-happiness.mp4”与内容的悲伤形成反讽。这是主动构建幽默或观点的一种“meta-level contrast”。 8. 组织最终回答:结构化成一篇自然语言的解释文 在经过完整 pipeline 后,Gemini 输出:来源背景、场景与情绪、meme 的文化意义、整体感受与反思;
ai 会不会取代我? > 只要是过程可以SOP 化、结果可以验证的智力劳动,几乎一定会在这一轮AI革命中被取代。 例如,在翻译任务上,ai 注定碾压并取代人类;在写作上,人类暂时是安全的。 翻译和写作,在 ai 面前的不同命运,不是巧合,而是揭示了本轮AI革命的本质——这是Software 2.0的革命。 传统软件是Software 1.0,人类必须把"怎么做"一行行写进代码。而深度学习带来的Software 2.0改变了游戏规则:Software 1.0 自动化你能精确描述的;Software 2.0 自动化你能稳定验证的。 所以判断一项工作能否被AI重塑,关键不再是"能不能写规则",而是结果是否"可验证"。 翻译之所以被碾压,不是因为它简单,恰恰相反——对人类越难的事情,对AI往往越简单。翻译有海量双语语料可供学习,有BLEU等自动评价指标,输入输出格式高度结构化,练习成本接近于零。它落在"可验证性高、算法固定性高"的象限,这正是AI的主战场。 而写作的问题不在于AI生成不出语句,而在于没人能稳定地验收"这是不是好写作"。好文章的标准会随时代、读者和场景变化,没有统一评分标准,结果不可大量验证。AI可以写出"看起来像"的文章,但很难持续地写出"必须是它写的"那种东西。 这揭示了一个更大的图景:只要是"可以标准化的智力劳动",几乎一定会在这一轮AI革命中被取代。 根据模板写周报、按规范写文档、整理会议纪要……这些白领流水线的价值会被AI抽走,边际价格持续下探,直到接近电费。 真正的问题不是"AI会不会取代我",而是:你有哪些工作内容是结果可验证、算法高度固定的?又有哪些是难以标准化的?前者应该主动交给AI,后者才是你需要刻意训练的护城河。 全文:《“ai 会不会取代我?” karpathy 给出了一个最清醒的回答》