#可验证性

4天前

ai 会不会取代我？ > 只要是过程可以SOP 化、结果可以验证的智力劳动，几乎一定会在这一轮AI革命中被取代。例如，在翻译任务上，ai 注定碾压并取代人类；在写作上，人类暂时是安全的。翻译和写作，在 ai 面前的不同命运，不是巧合,而是揭示了本轮AI革命的本质——这是Software 2.0的革命。传统软件是Software 1.0，人类必须把"怎么做"一行行写进代码。而深度学习带来的Software 2.0改变了游戏规则：Software 1.0 自动化你能精确描述的；Software 2.0 自动化你能稳定验证的。所以判断一项工作能否被AI重塑，关键不再是"能不能写规则"，而是结果是否"可验证"。翻译之所以被碾压，不是因为它简单，恰恰相反——对人类越难的事情，对AI往往越简单。翻译有海量双语语料可供学习，有BLEU等自动评价指标，输入输出格式高度结构化，练习成本接近于零。它落在"可验证性高、算法固定性高"的象限，这正是AI的主战场。而写作的问题不在于AI生成不出语句，而在于没人能稳定地验收"这是不是好写作"。好文章的标准会随时代、读者和场景变化，没有统一评分标准，结果不可大量验证。AI可以写出"看起来像"的文章，但很难持续地写出"必须是它写的"那种东西。这揭示了一个更大的图景：只要是"可以标准化的智力劳动"，几乎一定会在这一轮AI革命中被取代。根据模板写周报、按规范写文档、整理会议纪要……这些白领流水线的价值会被AI抽走，边际价格持续下探，直到接近电费。真正的问题不是"AI会不会取代我"，而是：你有哪些工作内容是结果可验证、算法高度固定的？又有哪些是难以标准化的？前者应该主动交给AI，后者才是你需要刻意训练的护城河。全文：《“ai 会不会取代我？” karpathy 给出了一个最清醒的回答》

#AI浪潮：重塑就业，风险暗涌？· 126 条信息

#AI取代 #可验证性 #Software 2.0 #标准化智力劳动 #AI革命

5天前

一方面我不喜欢 Andrej Karpathy 总是发明新的概念，一方面又不得不承认他确实很多想法是很有价值的。比如这里对 Software 1.0/2.0 的定义就挺好的： 1). 软件1.0时代，容易自动化的是你能明确告诉计算机怎么做的事情。 2). 软件2.0时代，容易自动化的是你能自动验证结果好坏的事情。那这里的自动化都什么意思呢？ 1. 软件1.0：靠指定规则（Specify Rule）自动化过去的几十年，我们用的所有传统软件（比如Excel、Word、会计系统），都是“软件1.0”。它的核心逻辑是“指定”（Specify）。你必须像个事无巨细的监工，把每一个规则都用代码写得清清楚楚。比如做个会计软件，你必须告诉它： “如果A栏的数字大于B栏，那么C栏就显示红色。”“月末，把所有D栏的数字加起来，放到Z栏。” 软件1.0擅长什么？自动化那些规则固定、逻辑清晰的任务。软件1.0解决的是什么问题呢？是人类的“机械性重复劳动”。比如打字员、记账员、算账员。只要一个任务的全部流程能被清晰描述出来，软件1.0就能接管它。 2. 软件2.0：靠指定目标（Specify Objective）自动化现在，AI 来了，升级到了软件2.0。它的逻辑完全变了。我们不再是指定规则，而是设定目标。我们不再像监工一样告诉AI每一步怎么做，而是像个教练，只告诉它验收的标准是什么。比如训练AI下棋。我们不告诉它“当对方出这一招，你就必须走那一步”。我们只给它一个目标：“想办法赢棋”。然后，AI 就开始自己搜索那个能赢棋的步骤。它通过海量的自我对弈（也就是梯度下降）来寻找最佳策略。这就是 AK 的核心观点：软件1.0是我们手动写程序，软件2.0是AI自动搜索生成程序。 3. 软件 1.0 时代看“可指定性”（Specifiability），2.0 时代看“可验证性”（Verifiability）。如果说软件 1.0 自动化任务的标准是我们能不能指定清晰的规则，比如说你要写个自动抓取的爬虫，只要指定清晰饿抓取规则和解析规则就可以了。那么软件 2.0 自动化任务的标准则是结果是不是能自动被验证。 “可验证性”就是AI能不能在一个任务上进行高效的“刻意练习”。 AK 给出了“可验证”的三个关键条件： 1). 可重置 (Resettable) AI必须能够无限次地重新开始尝试。比如下棋，这局输了，没关系，棋盘一清，马上开下一局。 2). 高效率 (Efficient) AI的练习速度必须远超人类。它可以在一小时内“看”完人类一辈子都看不完的视频，一天内下几百万盘棋。 3). 可奖励 (Rewardable) 这是最关键的一点。必须有一个自动化的、即时的、没有争议的奖惩机制。自动化至关重要。如果AI每次做完一件事，都需要一个人类专家来看半天，然后给个模棱两可的评价（比如“嗯，这个创意还行”），那AI就没法高效学习。像在编程、数学领域就很容易符合上面的三个条件，但是像写作这种非标准化的就很难验证。但对于软件来说，稍微复杂一点的软件系统，其实很难达到可验证的标准。比如说我在实现 UI 时，会尝试把 UI 设计稿扔给 AI，然后给 AI 一个截图工具，让它反复截图对比设计稿，然后找出差异优化，但是以目前的 AI 能力，还不足以修复这些差异，所以无论你运行多久，也不会真的得到一个理想的结果。这可能就是我不太喜欢 AK 发明的这些新概念的原因，总是提出一个个概念，但是并没有解决多少问题。

#软件1.0/2.0 #自动化 #可验证性 #AI #Andrej Karpathy

1个月前

如果互联网的模式不改变，那这些巨大的算力中心要来干嘛？你可以想象，几百亿美金的超算集群，结果每天只是被用来跑一些聊天模型，回答天气、写邮件、做点PPT——那基本就是 “超算闲置时代”。我们看起来在用AI，但实际上，底层基础设施的潜力远没有被释放。如果一个系统只能生成语言，而不能参与执行、验证、决策，那它的计算资源就永远只能“半开”。很多人谈主权个人、科技领主这些概念，的确听上去像精英主义，但我始终觉得，基础设施的真正意义，是要让“非精英”也能使用而不自觉地受益。互联网之所以改变了世界，是因为不需要你懂TCP/IP；智能手机之所以普及，是因为不需要你懂通信协议。真正的范式革命，永远不是“精英的逃逸”，而是“结构的下沉”。它必须让普通人能无感接入、自然参与。而今天很多人把 Web3 理解成代币经济，这其实太狭隘。代币只是一个激励层，不是结构本身。从更大的历史尺度看，Web3 代表的是一种范式转变（paradigm shift）。如果最终我们只是让“中心化的权力”换了个名字、把服务器搬到了链上、把账号换成钱包地址，那这不是革命，只是换皮。维持现状，就是范式转移的失败。很多大厂都尝试过，比如“元宇宙”就是一次试图定义新范式的尝试——但最后失败了。为什么？因为它没有解决底层结构的问题。 “空间化的互联网”听上去浪漫，但本质上还是 Web2 模式的延伸，只不过把浏览器变成了虚拟头盔。我有时候在想，也许我会给扎克伯格一个建议：人的幸运值是有限的。你能在19岁那年创造一个改变世界的平台，已经是概率奇迹。但如果你在第二次范式转变中仍然沿用同一套逻辑，那好运也救不了系统性的老化。同样地，Sam Altman 他们的成功，也取决于他们是否能真正突破范式。如果他们只是让大模型成为更聪明的“黑箱”，那这条路的终点，就是另一个中心化的帝国。到时候，模型对普通人来说，只是一个聊天搭子——高效，但空洞；强大，但封闭。那我们到底缺什么？表面上看，大语言模型已经具备了我们想要的一切：能理解自然语言、能推理、能生成、甚至能写代码。听起来，这不就是我们说的“语义运行时”吗？是的——表面上是。但问题在于，它们只是模拟这些能力，而不是在结构上实现它们。看起来像“理解”，但没有可验证的推理路径；看起来像“智能”，但没有明确的逻辑框架。本质上，它们仍然是“相关性机器”，而不是“因果性系统”。所以，大模型真正的三个缺陷，是结构性的： 1️⃣ 有语义，却无结构。 LLM 的“理解”是隐性的，埋在几千亿个参数的权重里。它能“说出”意义，但不能“展示”意义。真正的语义系统，必须让意义是显性的、可组合、可验证的。也就是说，你得能指出：“它为什么这样推理？”、“它依据了什么事实？” 今天的 LLM 是在语义层上说话，却还没有在语义层上思考。 2️⃣ 能生成信念，却无法提供证明。它可以写合同、诊断问题、甚至模拟逻辑推理——但我们无法验证它的正确性。它的输出没有来源（provenance），也没有可复现性。今天问它一遍，明天再问一次，可能就是完全不同的答案。而真正的可验证系统，必须像区块链那样，信任数学，而不是信任人。现在的模型让我们信任“它”，这恰恰是 Web3 想摆脱的那种中心化信任。 3️⃣ 是语言界面，而非系统接口。现在的 Prompt 体验很顺滑——你问，它答。但它生成的结果是游离的，不接入任何可验证的系统。没有智能合约，没有持久逻辑，没有数据溯源。未来的 LLM 必须能直接组成系统，让“语言＝行为”，输入一句话，就能在规则透明的环境中触发实际执行。这才是从“语言生成”到“结构调度”的飞跃。这就是当前的断层：我们已经拥有了强大的表达能力，却还没有可靠的结构信任。 AI 能生成知识，却不能证明知识；能模仿思维，却不能承担后果。如果我们止步于此，就会重演一次中心化的轮回—— 这次掌握权力的，不是平台，而是模型。真正的 Web3 精神，不是要建更大的模型，而是要建更透明的系统。一个每一句话、每一个规则、每一次执行都可以被验证、重组、共享的开放智能网络。那时，语言才不只是人机界面，而会成为智能的治理层—— 在这里，意义、逻辑与执行真正汇合为一体。这才是范式转移的完成。不是造更大的盒子，而是打破盒子。 From Useful to Trustworthy: When Language Becomes the Operating System

#Web3 #范式转移 #中心化 #AI伦理 #可验证性