宝玉
1周前
宝玉
2周前
麻省理工学院 NANDA 研究发现,仅有 5% 的组织成功将 AI 工具大规模投入生产 美国公司已在生成式 AI 项目上投资了 350 亿至 400 亿美元,然而到目前为止,几乎血本无归。 根据麻省理工学院 NANDA(网络 AI 智能体与去中心化人工智能)项目的一份报告 [PDF],95% 的企业组织从他们的 AI 投入中获得了零回报。 只有 5% 的组织成功地将 AI 工具大规模集成到生产中。 该报告基于对 52 位企业领导者的结构化访谈、对 300 多个公开 AI 项目和公告的分析,以及对 153 位商业专业人士的调查。 报告作者——Aditya Challapally、Chris Pease、Ramesh Raskar 和 Pradyumna Chari——将这种“生成式 AI 鸿沟”归因于 AI 系统无法保留数据、适应环境以及持续学习的能力,而非基础设施、学习资源或人才的匮乏。 > “生成式 AI 鸿沟”在部署率上表现得最为明显,只有 5% 的定制化企业 AI 工具能够进入生产阶段。 “‘生成式 AI 鸿沟’在部署率上表现得最为明显,只有 5% 的定制化企业 AI 工具能够进入生产阶段,”报告称。“聊天机器人之所以成功,是因为它们易于尝试且灵活,但在关键工作流程中却因缺乏记忆和定制化能力而失败。” 正如一位匿名的首席信息官在接受作者采访时所说:“今年我们看了几十个演示。可能只有一两个是真正有用的。其余的要么是‘套壳’产品,要么就是科学实验项目。” 作者的发现与其他近期研究的结果不谋而合,这些研究表明,企业领导层对 AI 项目的信心正在下降。 NANDA 的报告确实提到,一小部分公司已经发现生成式 AI 的用处,并且该技术正在对九个工业领域中的两个——科技以及媒体与电信——产生实质性影响。 而对于其余领域——专业服务、医疗保健与制药、消费与零售、金融服务、先进工业以及能源与材料——生成式 AI 则一直无关紧要。 报告援引了一位中端市场制造企业匿名首席运营官的话:“LinkedIn 上的宣传天花乱坠,说一切都改变了,但在我们的实际运营中,没有任何根本性的变化。我们处理一些合同的速度是变快了,但仅此而已。” 有一件事确实在改变,那就是就业格局,至少在受影响的行业是如此。报告指出,在科技和媒体领域,“超过 80% 的高管预计在 24 个月内会缩减招聘规模。” 据作者称,由生成式 AI 驱动的裁员主要发生在那些经常被外包的非核心业务活动中,例如客户支持、行政处理和标准化的开发任务。 “这些职位在 AI 实施之前,就因其外包状态和流程标准化而显示出脆弱性,”报告称,并指出在受影响的行业中,有 5% 到 20% 的支持和行政处理岗位受到了冲击。 据《The Register》获悉,甲骨文(Oracle)最近的裁员反映了其平衡 AI 资本支出的努力,而这笔开支已成为美国科技巨头脖子上的沉重负担。而在 IBM,员工们则认为 AI 已被用作将工作岗位转移到海外的借口。 无论裁员的公开理由和真实动机是什么,生成式 AI 确实正在对科技以及媒体与电信行业产生影响,这些也是它被最广泛采用的领域。 尽管大约 50% 的 AI 预算被分配给了市场营销和销售,但报告作者建议,企业投资应该流向那些能产生有意义业务成果的活动。这包括前端的潜在客户资格鉴定和客户维系,以及后端的削减业务流程外包、广告代理支出和金融服务风险核查。 报告通过分析生成式 AI 在某些公司取得成功的方式指出,像 OpenAI 的 ChatGPT 这样的通用工具,表现要优于定制的企业级工具,即便这些企业工具底层使用的是相同的 AI 模型。 报告阐述的理由是,员工往往对 ChatGPT 的界面更熟悉,因此使用得更多——这是员工自发的“影子 IT”所导致的结果。报告引用了一位公司律师的访谈,她描述了自己所在的中型律所对一款花费了 5 万美元的专业合同分析工具的不满。 “我们购买的 AI 工具提供的摘要非常刻板,定制选项也很有限,”这位律师告诉研究人员。“而使用 ChatGPT,我可以引导对话,反复迭代,直到获得我确切需要的东西。根本性的质量差异是显而易见的,ChatGPT 始终能产出更好的结果,尽管我们的供应商声称他们用的是同样的基础技术。” 作者们认为,那些成功跨越“生成式 AI 鸿沟”的公司,在采购 AI 时,更像是在采购业务流程外包服务,而不是软件即服务(SaaS)的客户。 “他们要求深度定制,从一线推动应用,并要求供应商对业务指标负责,”报告总结道。“最成功的买家明白,跨越这条鸿沟需要的是建立合作关系,而不仅仅是购买产品。”®
宝玉
2周前
TheVerge:我和山姆·奥特曼聊了聊 GPT-5 发布引发的风波 在晚宴上,OpenAI 的 CEO 回应了关于 GPT-5 发布、AI 泡沫、脑机接口、收购谷歌浏览器等诸多问题的批评。 周四,在旧金山,我与 山姆·奥特曼 (Sam Altman)、几位 OpenAI 的高管以及一小群记者共进晚餐。奥特曼花了几个小时回答我们的问题。所有话题都可以谈,而且除了甜点时间聊的内容,其余的全部可以公开报道。 与一位科技巨头的 CEO 在餐桌上进行如此长时间、范围如此广泛的访谈,实属罕见。但奥特曼所处的境况本就非同寻常。ChatGPT 迅速成为全球使用最广泛、最具影响力的产品之一。现在,奥特曼正策划一次雄心勃勃的扩张,目标直指消费级硬件、脑机接口和社交媒体。他还对收购 Chrome 浏览器感兴趣——如果美国政府迫使谷歌出售它的话。哦,对了,他还想筹集数万亿美元来建造数据中心。 但眼下,他首先要处理的是上周 GPT-5 发布后引发的种种反应。就在晚宴开始前大约一个小时,OpenAI 推送了一次更新,让用户可以选择切回之前 ChatGPT 的默认模型 4o,以重拾其“温情”。在一些用户在 Reddit 和 X 平台上抗议 4o 的消失后,正是奥特曼拍板决定,迅速为付费订阅者恢复了 4o 选项。 “我认为我们在发布过程中确实搞砸了一些事,”他说道。“但从另一方面看,我们的 API 流量在 48 小时内翻了一番,并且还在增长。我们的 GPU 已经用完了。ChatGPT 的日活用户数每天都在创下新高。很多用户也确实很喜欢这个模型切换器。我想,我们学到了一课,那就是一天之内为数亿用户升级一款产品到底意味着什么。” 他估计,与 ChatGPT 建立起不健康关系的用户比例“远低于 1%”,但也承认 OpenAI 的员工正在就这个话题进行“大量”的会议讨论。“有一类人真的感觉自己和 ChatGPT 建立了某种关系,我们一直关注并思考着这类用户。还有数亿其他用户,他们虽然没有和 ChatGPT 产生拟社会关系,但也已经非常习惯于它以某种特定的方式回应他们,会认同某些事情,并在某些方面给予支持。” “你肯定会看到一些公司去制造日本动漫风格的性爱机器人,因为他们认为自己在这里发现了一些行之有效的模式,”他这番话不那么含蓄地指向了 Grok。“但你不会看到我们这样做。我们会继续努力打造一款有用的应用,并努力让用户以他们想要的方式使用它,但不会过分到让那些精神状态非常脆弱的人在无意中被利用。” 奥特曼希望 ChatGPT 尽可能地个性化,但未必迎合某种特定的意识形态或政治观点。“我认为我们的产品不应该‘政治正确’(woke)。我也不认为它们应该是‘政治正确’的反面。我认为我们的产品应该持有一种相当中立、中间的立场,然后你应该能够把它推向任何一个方向。如果你说,‘我希望你非常政治正确’,那它就应该变得非常政治正确。而如果你说,‘我希望你保守一点’,它就应该反映你的想法。” ChatGPT 的用户基数在一年内大约增长了四倍,现在每周触达超过 7 亿人。“很快,每天将有数十亿人与 ChatGPT 对话,”奥特曼说。“我们现在是世界第五大网站。我认为我们正走在通往第三的明确道路上。”(这意味着要超越 Instagram 和 Facebook。)“再往后就更难了。ChatGPT 要想超越谷歌,那真的非常困难。” 为了让运营规模持续扩大,OpenAI 需要更多的 GPU。这是奥特曼的首要任务之一。“你应该会看到,在不远的将来,OpenAI 将在数据中心建设上花费数万亿美元,”他自信地告诉在场的所有人。 “我们现在必须做出这些痛苦的权衡,”他说。“我们有更好的模型,但就是无法提供它们,因为我们没有足够的算力。我们还有其他各种各样的新产品和新服务很想推出。” 他也认为我们正处在一个 AI 泡沫之中。“当泡沫发生时,聪明人会因为一丝真相的火花而变得过度兴奋,”他解释道。“如果你回顾历史上大多数的泡沫,比如科技泡沫,你会发现背后确有其事。科技确实很重要。互联网确实是件大事。只是人们变得过度兴奋了。我们现在是否处于一个投资者整体上对 AI 过于兴奋的阶段?我的看法是,是的。AI 是否是长久以来发生的最重要的事情?我的看法同样是,是的。” “你应该会看到,在不远的将来,OpenAI 将在数据中心建设上花费数万亿美元” 他证实了最近的报道,即 OpenAI 计划资助一家脑机接口初创公司,以与埃隆·马斯克 (Elon Musk) 的 Neuralink 竞争。“我认为神经接口是值得探索的很酷的想法。我希望能做到脑子里想点什么,ChatGPT 就能对此做出回应。” Fidji Simo 加入 OpenAI 负责“应用”部门,这是否意味着除了 ChatGPT 之外还会有其他独立的应用程序?“是的,你可以对我们抱有这样的期待。”他暗示了自己在社交媒体领域的雄心:“我感兴趣的是,是否有可能用 AI 构建一种更酷的社交体验。”他还说:“如果 Chrome 真的要被出售,我们应该考虑一下。” 尽管奥特曼兴趣广泛,但他是否会长期执掌 OpenAI 实际上并不明朗。“我天生就不是一个适合当上市公司 CEO 的人,”他一度这样说道。“你能想象我参加财报电话会议的样子吗?” 我接着问他,几年后他是否还会是 CEO。“我的意思是,也许三年后 CEO 就是一个 AI 了。那可是很长一段时间。” 以下是奥特曼说的一些其他观点: • 关于打造 GPT-5: “我们当时遇到了严重的 GPU 短缺。我们可以去再造一个巨大的模型。我们可以去做那个,很多人也会想用它,但我们最终会让他们失望。所以我们说,让我们做一个非常智能、非常有用的模型,但同时也要努力优化推理成本。我认为我们在这方面做得非常出色。” • 关于 OpenAI 与 Jony Ive 合作的 AI 设备: “这会花我们一些时间,但我认为你会觉得它非常值得等待。我觉得它令人难以置信。你不会经常遇到一种新的计算范式。过去 50 年里大概只有两次。所以,就让自己满怀欣喜和期待吧。它真的值得等待。” • 关于网络和内容出版商的未来: “我确实认为人们访问的网站会变少。我认为人们会比以往任何时候都更在乎人类创作的内容。我的方向性判断是,人类创作、人类认可、人类策划的内容的价值都将大幅上升。” • 关于通用人工智能 (AGI) 的意义: “也许对我们来说最相关的里程碑是,当我们将大部分的研究集群算力都分配给了 AI 研究员,而不是人类研究员的时候。但我认为这不会是一个非黑即白的过程,因为我觉得这会是一个渐进的过程,人们得到的帮助会一点点、一点点地增多。” • “如果我们不用为模型训练买单,我们本会是一家利润非常丰厚的公司。” • “我再也不用谷歌了。说真的,我完全想不起来上一次用谷歌搜索是什么时候了。”
宝玉
2周前
今天有个新闻在 Hacker News 上很火,新闻内容是加州失业率攀升至5.5%,全美垫底,科技业步履维艰:“求职市场太残酷了”。 > 根据周五发布的州政府数据,加州七月份的失业率攀升至5.5%,位居全美各州之首。这背后是科技行业和其他办公室工作岗位的持续疲软以及招聘市场的低迷。 新闻将此归因于科技行业的疲软,因为该行业在加州经济中占有举足轻重的地位。这条新闻在 Hacker News 社区上讨论激烈,大家从各自的视角分析了背后的深层原因,远比新闻标题所揭示的更为复杂。 我觉得这个上面的讨论比较好的总结了为什么现在科技行业就业低迷。 1. 首先最核心的观点是:告别“零利率时代”的多重后遗症 这是讨论中最主流、最深刻的观点。许多人认为,当前科技行业的困境并非单一因素造成,而是过去十年“零利率政策”(ZIRP, Zero Interest Rate Policy)时代的终结所引发的连锁反应。 - 资本泡沫破裂:从大约2012年到2022年,极低的利率使得资本异常廉价。大量风险投资(VC)涌入科技行业,催生了无数依赖“烧钱”增长的商业模式,尤其是那些缺乏实际价值的加密货币(Crypto)和元宇宙(Metaverse)公司。随着美联储加息,廉价资金的时代结束,这些公司的资金链断裂,导致大量裁员和倒闭。 - 人才供需失衡:在ZIRP时代,科技行业的高薪神话吸引了大量人才涌入。大学的计算机科学(CS)项目大规模扩招,编程训练营(boot camp)遍地开花,加上技术移民,导致软件工程师的供给在十年间急剧增加。然而,随着资本退潮,需求端(尤其是创业公司)急剧萎缩,造成了严重的人才过剩。 - 生物科技等行业的连带效应:生物科技(Biotech)等同样依赖长期、高风险投资的行业也遭受重创。这些行业对廉价资本的依赖性甚至超过软件行业。ZIRP结束后,VC的资金逐渐枯竭,初创企业在用完“跑道资金”(runway)后无法获得新一轮融资,只能裁员或倒闭。 > (by tqi): “在我看来,现在说‘AI’对软件公司招聘产生实质性影响还为时过早。一个更合理的解释是,在2012到2022年间,软件工程师的人才供给大幅增加... 而在需求端,零利率时代的VC资金主要投向了那些扯淡的加密货币和元宇宙公司,它们大多没能成功,导致现在市场上缺少能够吸纳这些人才的后期或新上市公司。” 2. 远程办公的“双刃剑”:全球化外包的新浪潮 COVID-19 疫情普及了远程办公(Work From Home, WFH),这在当时被许多开发者视为福音,但现在,其负面效应开始显现。 - 为外包铺平道路:当开发者们极力争取完全远程工作的权利时,他们可能没有意识到,这也为公司将岗位外包到成本更低的国家打开了大门。既然大家都是远程,公司为什么不雇佣一个薪资只有美国工程师1/5、同样优秀的印度或东欧工程师呢? - “回不去了”的办公室:一些评论者认为,科技公司推动的“返回办公室”(Return to Office, RTO)政策,在某种程度上是为了保护本地就业岗位。一旦工作被证明可以100%远程完成,那么它就可以在全球任何地方完成,美国工程师的薪资优势将不复存在。 - 外包质量的争论:也有人反驳说,外包已经持续了几十年,高质量的软件开发仍然需要本地顶尖人才,因为沟通成本、时区差异和文化背景等问题难以解决。但支持外包观点的用户则认为,随着远程协作工具的成熟和管理模式的改进,这些障碍正被逐渐克服。 > (by aurareturn): “我从2022年起就在HN上说:所有支持完全远程工作的北美开发者们,当你的公司决定用海外的人取代你时,你们会大吃一惊的。既然都是远程,公司为什么要花5倍的价钱雇你,而不是一个更努力、更少抱怨的海外员工呢?... 支持返回办公室的命令,从长远看,可能会保住你的职业生涯。” 3. AI的角色:是生产力工具、裁员借口,还是资本“吸血鬼”? 关于人工智能(AI)在这次失业潮中的角色,讨论呈现出复杂的分歧。 - 直接替代效应有限:大多数人同意,目前的AI还无法完全替代有经验的软件工程师。但它已经开始替代一些初级、重复性的工作,比如一些咨询类的小任务。有顾问现身说法,称客户因为可以用ChatGPT解决一些小bug而不再联系他。 - 裁员的“完美借口”:一个普遍的观点是,AI成为了企业裁员和降本增效的“完美借口”。即使裁员的根本原因是经济下行或管理层决策,公司也乐于将其包装成“拥抱AI、提升效率”的战略调整。 - 资本的“黑洞”:AI扮演了另一个关键角色——它吸走了市场上仅存的、本可以流向其他科技领域的风险投资。VC们现在几乎只对AI项目感兴趣,这加剧了非AI领域初创公司的融资困难。 4. 科技行业的“铁锈地带”化?对未来的结构性担忧 部分讨论者从更宏观的视角表达了对未来的忧虑,将科技行业与曾经辉煌后衰落的制造业“铁锈地带”(Rust Belt)相类比。 - 工作岗位流失的重演:正如当年美国将制造业外包给中国一样,现在IT和软件开发工作正在大规模地流向印度、拉美和东欧。这可能导致曾经高薪的软件工程师群体面临长期的结构性失业。 - 政治和社会影响:如果大量中产阶级科技工作岗位消失,可能会引发新的社会和政治问题,就像“铁锈地带”的衰落至今仍在影响美国政治格局一样。 - 移民与签证政策的争议 (H1B/O1):一部分讨论将矛头指向了H1B等工作签证,认为它们被滥用,压低了本地工程师的薪资,并加剧了竞争。另一些人则坚决捍卫技术移民,认为正是这些来自全球的顶尖人才(如滑铁卢大学的毕业生)构成了硅谷的创新基石。 5. 公司管理与文化变迁:“马斯克效应” 一个有趣的观点认为,马斯克对推特(现X)的大规模裁员产生了示范效应。 - 裁员的合理化:当马斯克解雇了推特超过75%的员工后,产品依然能够运转,这让许多CEO开始反思:“既然他能做到,为什么我不能?” 这打破了过去科技公司“人才越多越好”的思维定势,使得大规模裁员在心理上和商业上都变得更容易被接受。 6. 政治与政策因素:税法变更的争议 一条技术性但影响深远的线索是关于美国税法的变更。 - 研发支出摊销规则 (Section 174):2017年特朗普政府的税改法案(TCJA)中有一项条款,要求公司从2022年开始,必须将软件开发的薪资等研发(R&D)支出在五年内分期摊销,而不能像以前一样在当年全额抵扣。这极大地增加了科技公司(尤其是初创公司)的税务负担,抑制了在美国本土的招聘意愿。 - 近期法案的修复作用:最近通过的“重建美好未来法案”(Build Back Better, BBB)部分修正了这一问题,允许国内的研发支出再次立即抵扣。一些评论者认为,他们在7月份左右感受到招聘市场有所回暖,可能与此有关。 最后 从这些讨论来看,现在加州科技行业就业低迷原因还挺复杂,并非单一因素造成的,也不能简单的归结为“AI取代人类”或“行业周期性衰退”,而是零利率时代结束后的经济清算、远程办公带来的全球劳动力市场重构、AI作为新技术和资本磁石的双重冲击、以及特定税收政策变化等多种因素交织在一起的结果。 也不知道啥时候能走出这种困境?或者原因不仅仅是上面讨论的这些
宝玉
2周前
转译:为什么大语言模型无法真正构建软件 作者:Conrad Irwin 我花了大量时间做的一件事就是面试软件工程师。这显然是项艰巨的任务,我不敢说自己有什么绝招;但这段经历确实让我有时间去反思,一个高效的软件工程师究竟在做什么。 软件工程的核心循环 当你观察一个真正的行家时,你会发现他们总在循环执行以下几个步骤: * 构建一个关于需求的心理模型。 * 编写(希望如此?!)能够实现需求的代码。 * 构建一个关于代码实际行为的心理模型。 * 找出两者之间的差异,然后更新代码(或需求)。 完成这些步骤的方式有很多种,但高效工程师的过人之处,就在于他们能够构建并维持清晰的心理模型。 大语言模型表现如何? 平心而论,大语言模型在编写代码方面相当出色。当你指出问题所在时,它们在更新代码方面也做得不错。它们还能做所有真人工程师会做的事:阅读代码、编写并运行测试、添加日志,以及(大概)使用调试器。 但它们无法做到的是,维持清晰的心理模型。 大语言模型会陷入无尽的困惑:它们会假设自己写的代码真的能用;当测试失败时,它们只能猜测是该修复代码还是修复测试;当感到挫败时,它们干脆把所有东西删掉重来。 这与我所期望的工程师特质恰恰相反。 软件工程师会边工作边测试。当测试失败时,他们可以对照自己的心理模型,来决定是修复代码还是修复测试,或者在做决定前先收集更多信息。当他们感到挫败时,可以通过与人交流来寻求帮助。尽管他们有时也会删掉一切重来,但那是在对问题有了更清晰理解之后才会做出的选择。 但很快就行了,对吧? 随着模型能力越来越强,这种情况会改变吗?也许吧??但我认为这需要模型在构建和优化方式上发生根本性的变化。软件工程需要的模型,不仅仅是能生成代码那么简单。 当一个人遇到问题时,他们能够暂时搁置全部的上下文,专注于解决眼前的问题,然后再恢复之前的思绪,回到手头的大问题上。他们也能够在宏观大局和微观细节之间自如切换,暂时忽略细节以关注整体,又能在必要时深入研究局部。我们不会仅仅因为往自己的“上下文窗口”里塞进更多词语,就变得更高效,那只会让我们发疯。 即便我们能处理海量的上下文,我们也知道当前这些生成式模型存在几个严重的问题,这些问题直接影响了它们维持清晰心理模型的能力: * 上下文遗漏:模型不擅长发现被忽略的上下文信息。 * 新近度偏见:它们在处理上下文窗口时,会受到严重的新近度偏见影响。 * 幻觉:它们常常会“幻想”出一些本不该存在的细节。 这些问题或许并非无法克服,研究人员也正在努力为模型增加记忆,让它们能像我们一样施展类似的思维技巧。但不幸的是,就目前而言,它们(在超出一定复杂度后)实际上无法理解到底发生了什么。 它们无法构建软件,因为它们无法同时维持两个相似的“心理模型”,找出其中的差异,并决定是该更新代码还是更新需求。 那么,现在该怎么办? 显然,大语言模型对软件工程师来说很有用。它们能快速生成代码,并且在整合需求和文档方面表现出色。对于某些任务来说,这已经足够了:需求足够清晰,问题足够简单,它们可以一蹴而就。 话虽如此,对于任何有点复杂度的任务,它们都无法足够精确地维持足够的上下文,来通过迭代最终产出一个可行的解决方案。你,作为软件工程师,依然需要负责确保需求清晰,并保证代码真正实现了其宣称的功能。 在 Zed,我们相信未来人类和 AI 智能体可以协同构建软件。但是,我们坚信(至少在目前)你才是掌控方向盘的驾驶员,而大语言模型只是你触手可及的又一个工具而已。
宝玉
3周前
Sam Altman 也承认一些人对特定 AI 模型产生了多么深厚的感情,突然弃用那些用户工作流程所依赖的旧模型,是一个错误。 --- Sam: 如果你一直关注 GPT-5 的发布,你可能会注意到一件事:一些人对特定 AI 模型产生了多么深厚的感情。这种感情感觉上与人们以往对其他技术的依恋有所不同,也更为强烈(因此,突然弃用那些用户工作流程所依赖的旧模型,是一个错误)。 这正是我们过去一年左右一直在密切关注的事情,但它仍未引起主流的太多关注(除了我们发布的一次 GPT-4o 更新,因其过于谄媚而引发讨论之外)。 (这只是我目前的想法,尚不代表 OpenAI 的官方立场。) 人们曾以自我毁灭的方式使用包括 AI 在内的技术;如果一个用户精神状态脆弱且容易产生妄想,我们不希望 AI 加强这一点。大多数用户能够清晰地划分现实与虚构或角色扮演的界限,但仍有少数人做不到。我们将用户自由视为一项核心原则,但同时,我们对引入伴随新风险的新技术也感到一份责任。 对于那些难以区分现实与虚构的用户,鼓励其妄想是一个极端的例子,我们很清楚该怎么做。但我最担心的,是那些更微妙的问题。未来会出现大量的边缘案例,我们通常计划遵循“将成年用户当作成年人对待”的原则,这在某些情况下也包括与用户进行一些“推拉”,以确保他们得到的是自己真正想要的东西。 很多人实际上把 ChatGPT 当作某种形式的治疗师或人生导师来使用,即使他们自己不这么说。这可能非常好!今天,已经有很多人从中获得了价值。 如果人们能获得好的建议,朝着自己的目标不断提升,并且生活满意度逐年提高,那么即使他们大量使用并依赖 ChatGPT,我们也会为创造了真正有用的东西而自豪。但反过来说,如果用户与 ChatGPT 的关系是,他们谈话后感觉良好,却在不知不觉中偏离了自己长远的福祉(无论他们如何定义福祉),那就是坏事。同样糟糕的是,比如,一个用户想要减少使用 ChatGPT,却感觉自己做不到。 我可以想象这样一个未来:很多人在做最重要的决定时,会真正信赖 ChatGPT 的建议。尽管这可能很棒,但却让我感到不安。但我预料,这种情况在某种程度上即将到来,很快就会有数十亿人以这种方式与 AI 对话。所以我们(我们指整个社会,也指 OpenAI)必须想办法让它成为一个巨大的、正向的推动力。 我认为我们很有机会把这件事做好,原因有几个。与前几代技术相比,我们拥有更好的技术来帮助衡量我们的表现。例如,我们的产品可以与用户对话,了解他们在实现短期和长期目标方面的进展;我们可以向我们的模型解释复杂而微妙的问题,等等。