#可验证性

ai 会不会取代我? > 只要是过程可以SOP 化、结果可以验证的智力劳动,几乎一定会在这一轮AI革命中被取代。 例如,在翻译任务上,ai 注定碾压并取代人类;在写作上,人类暂时是安全的。 翻译和写作,在 ai 面前的不同命运,不是巧合,而是揭示了本轮AI革命的本质——这是Software 2.0的革命。 传统软件是Software 1.0,人类必须把"怎么做"一行行写进代码。而深度学习带来的Software 2.0改变了游戏规则:Software 1.0 自动化你能精确描述的;Software 2.0 自动化你能稳定验证的。 所以判断一项工作能否被AI重塑,关键不再是"能不能写规则",而是结果是否"可验证"。 翻译之所以被碾压,不是因为它简单,恰恰相反——对人类越难的事情,对AI往往越简单。翻译有海量双语语料可供学习,有BLEU等自动评价指标,输入输出格式高度结构化,练习成本接近于零。它落在"可验证性高、算法固定性高"的象限,这正是AI的主战场。 而写作的问题不在于AI生成不出语句,而在于没人能稳定地验收"这是不是好写作"。好文章的标准会随时代、读者和场景变化,没有统一评分标准,结果不可大量验证。AI可以写出"看起来像"的文章,但很难持续地写出"必须是它写的"那种东西。 这揭示了一个更大的图景:只要是"可以标准化的智力劳动",几乎一定会在这一轮AI革命中被取代。 根据模板写周报、按规范写文档、整理会议纪要……这些白领流水线的价值会被AI抽走,边际价格持续下探,直到接近电费。 真正的问题不是"AI会不会取代我",而是:你有哪些工作内容是结果可验证、算法高度固定的?又有哪些是难以标准化的?前者应该主动交给AI,后者才是你需要刻意训练的护城河。 全文:《“ai 会不会取代我?” karpathy 给出了一个最清醒的回答》
宝玉
5天前
一方面我不喜欢 Andrej Karpathy 总是发明新的概念,一方面又不得不承认他确实很多想法是很有价值的。 比如这里对 Software 1.0/2.0 的定义就挺好的: 1). 软件1.0时代,容易自动化的是你能明确告诉计算机怎么做的事情。 2). 软件2.0时代,容易自动化的是你能自动验证结果好坏的事情。 那这里的自动化都什么意思呢? 1. 软件1.0:靠指定规则(Specify Rule)自动化 过去的几十年,我们用的所有传统软件(比如Excel、Word、会计系统),都是“软件1.0”。 它的核心逻辑是“指定”(Specify)。 你必须像个事无巨细的监工,把每一个规则都用代码写得清清楚楚。比如做个会计软件,你必须告诉它: “如果A栏的数字大于B栏,那么C栏就显示红色。”“月末,把所有D栏的数字加起来,放到Z栏。” 软件1.0擅长什么? 自动化那些规则固定、逻辑清晰的任务。 软件1.0解决的是什么问题呢? 是人类的“机械性重复劳动”。比如打字员、记账员、算账员。只要一个任务的全部流程能被清晰描述出来,软件1.0就能接管它。 2. 软件2.0:靠指定目标(Specify Objective)自动化 现在,AI 来了,升级到了软件2.0。 它的逻辑完全变了。我们不再是指定规则,而是设定目标。 我们不再像监工一样告诉AI每一步怎么做,而是像个教练,只告诉它验收的标准是什么。 比如训练AI下棋。我们不告诉它“当对方出这一招,你就必须走那一步”。我们只给它一个目标:“想办法赢棋”。 然后,AI 就开始自己搜索那个能赢棋的步骤。它通过海量的自我对弈(也就是梯度下降)来寻找最佳策略。 这就是 AK 的核心观点:软件1.0是我们手动写程序,软件2.0是AI自动搜索生成程序。 3. 软件 1.0 时代看“可指定性”(Specifiability),2.0 时代看“可验证性”(Verifiability)。 如果说软件 1.0 自动化任务的标准是我们能不能指定清晰的规则,比如说你要写个自动抓取的爬虫,只要指定清晰饿抓取规则和解析规则就可以了。 那么软件 2.0 自动化任务的标准则是结果是不是能自动被验证。 “可验证性”就是AI能不能在一个任务上进行高效的“刻意练习”。 AK 给出了“可验证”的三个关键条件: 1). 可重置 (Resettable) AI必须能够无限次地重新开始尝试。比如下棋,这局输了,没关系,棋盘一清,马上开下一局。 2). 高效率 (Efficient) AI的练习速度必须远超人类。它可以在一小时内“看”完人类一辈子都看不完的视频,一天内下几百万盘棋。 3). 可奖励 (Rewardable) 这是最关键的一点。必须有一个自动化的、即时的、没有争议的奖惩机制。 自动化至关重要。如果AI每次做完一件事,都需要一个人类专家来看半天,然后给个模棱两可的评价(比如“嗯,这个创意还行”),那AI就没法高效学习。 像在编程、数学领域就很容易符合上面的三个条件,但是像写作这种非标准化的就很难验证。 但对于软件来说,稍微复杂一点的软件系统,其实很难达到可验证的标准。 比如说我在实现 UI 时,会尝试把 UI 设计稿扔给 AI,然后给 AI 一个截图工具,让它反复截图对比设计稿,然后找出差异优化,但是以目前的 AI 能力,还不足以修复这些差异,所以无论你运行多久,也不会真的得到一个理想的结果。 这可能就是我不太喜欢 AK 发明的这些新概念的原因,总是提出一个个概念,但是并没有解决多少问题。
Susan STEM
1个月前
如果互联网的模式不改变,那这些巨大的算力中心要来干嘛? 你可以想象,几百亿美金的超算集群,结果每天只是被用来跑一些聊天模型,回答天气、写邮件、做点PPT——那基本就是 “超算闲置时代”。 我们看起来在用AI,但实际上,底层基础设施的潜力远没有被释放。 如果一个系统只能生成语言,而不能参与执行、验证、决策,那它的计算资源就永远只能“半开”。 很多人谈主权个人、科技领主这些概念,的确听上去像精英主义,但我始终觉得,基础设施的真正意义,是要让“非精英”也能使用而不自觉地受益。 互联网之所以改变了世界,是因为不需要你懂TCP/IP; 智能手机之所以普及,是因为不需要你懂通信协议。 真正的范式革命,永远不是“精英的逃逸”,而是“结构的下沉”。 它必须让普通人能无感接入、自然参与。 而今天很多人把 Web3 理解成代币经济,这其实太狭隘。 代币只是一个激励层,不是结构本身。 从更大的历史尺度看,Web3 代表的是一种 范式转变(paradigm shift)。 如果最终我们只是让“中心化的权力”换了个名字、把服务器搬到了链上、把账号换成钱包地址,那这不是革命,只是换皮。 维持现状,就是范式转移的失败。 很多大厂都尝试过,比如“元宇宙”就是一次试图定义新范式的尝试——但最后失败了。 为什么?因为它没有解决底层结构的问题。 “空间化的互联网”听上去浪漫,但本质上还是 Web2 模式的延伸,只不过把浏览器变成了虚拟头盔。 我有时候在想,也许我会给扎克伯格一个建议: 人的幸运值是有限的。 你能在19岁那年创造一个改变世界的平台,已经是概率奇迹。 但如果你在第二次范式转变中仍然沿用同一套逻辑,那好运也救不了系统性的老化。 同样地,Sam Altman 他们的成功,也取决于他们是否能真正突破范式。 如果他们只是让大模型成为更聪明的“黑箱”,那这条路的终点,就是另一个中心化的帝国。 到时候,模型对普通人来说,只是一个聊天搭子——高效,但空洞;强大,但封闭。 那我们到底缺什么? 表面上看,大语言模型已经具备了我们想要的一切:能理解自然语言、能推理、能生成、甚至能写代码。 听起来,这不就是我们说的“语义运行时”吗? 是的——表面上是。 但问题在于,它们只是模拟这些能力,而不是在结构上实现它们。 看起来像“理解”,但没有可验证的推理路径; 看起来像“智能”,但没有明确的逻辑框架。 本质上,它们仍然是“相关性机器”,而不是“因果性系统”。 所以,大模型真正的三个缺陷,是结构性的: 1️⃣ 有语义,却无结构。 LLM 的“理解”是隐性的,埋在几千亿个参数的权重里。 它能“说出”意义,但不能“展示”意义。 真正的语义系统,必须让意义是显性的、可组合、可验证的。 也就是说,你得能指出:“它为什么这样推理?”、“它依据了什么事实?” 今天的 LLM 是在语义层上说话,却还没有在语义层上思考。 2️⃣ 能生成信念,却无法提供证明。 它可以写合同、诊断问题、甚至模拟逻辑推理——但我们无法验证它的正确性。 它的输出没有来源(provenance),也没有可复现性。 今天问它一遍,明天再问一次,可能就是完全不同的答案。 而真正的可验证系统,必须像区块链那样,信任数学,而不是信任人。 现在的模型让我们信任“它”,这恰恰是 Web3 想摆脱的那种中心化信任。 3️⃣ 是语言界面,而非系统接口。 现在的 Prompt 体验很顺滑——你问,它答。 但它生成的结果是游离的,不接入任何可验证的系统。 没有智能合约,没有持久逻辑,没有数据溯源。 未来的 LLM 必须能直接组成系统,让“语言=行为”, 输入一句话,就能在规则透明的环境中触发实际执行。 这才是从“语言生成”到“结构调度”的飞跃。 这就是当前的断层: 我们已经拥有了强大的表达能力,却还没有可靠的结构信任。 AI 能生成知识,却不能证明知识;能模仿思维,却不能承担后果。 如果我们止步于此,就会重演一次中心化的轮回—— 这次掌握权力的,不是平台,而是模型。 真正的 Web3 精神,不是要建更大的模型,而是要建更透明的系统。 一个每一句话、每一个规则、每一次执行都可以被验证、重组、共享的开放智能网络。 那时,语言才不只是人机界面,而会成为智能的治理层—— 在这里,意义、逻辑与执行真正汇合为一体。 这才是范式转移的完成。 不是造更大的盒子,而是打破盒子。 From Useful to Trustworthy: When Language Becomes the Operating System