#破折号

宝玉
15小时前
关于 ChatGPT 为什么喜欢用破折号,这个问题的原因似乎现在还没有定论,不过刚看到一篇博客分析这个问题,还挺有趣。 先说一个有趣的问题是 AI 特别喜欢用 "delve"(深入探究)这个词。 这个现象的答案是已知的:RLHF(人类反馈强化学习)。 简单说,AI 模型训练的最后一步,是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中,"delve" 是一个非常常用且得体的词汇。 于是,当 AI 用 "delve" 时,非洲的导师们觉得“这话说得不错”,就给了高分。AI 就此学会了:“哦,客户喜欢我用‘delve’。” 那么,破折号也是因为这个原因吗? 作者顺着这个思路去查证:是不是非洲英语里也特别爱用破折号? 结果,并不是! 尼日利亚英语破折号的出现频率(每词 0.022%)远低于普通英语的平均水平(0.25% 到 0.275%)。 这说明,“深入探究”(delve)和“破折号”(—)这两个 AI “口音”,来源并不相同。 作者最终发现了一个决定性的线索:时间。 大家回忆一下,2022 年底的 GPT-3.5,其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。 不只是 OpenAI,谷歌和 Anthropic 的模型,包括一些中国的大模型,都开始用破折号。 那么,从 2022 年到 2024 年,所有 AI 实验室的训练数据,到底发生了什么共同的变化? 答案是:AI 公司的“数据荒”来了,它们开始疯狂“喂”AI 吃书——特别是“旧书”。 在 2022 年,AI 主要吃的是互联网上的公开数据、盗版电子书(比如 LibGen 上的)。但很快,这些数据就不够用了,而且质量良莠不齐。 为了让模型变得更“有文化”、更“高质量”,AI 公司们(法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作,OpenAI 只会更早)启动了一个庞大的工程:大规模扫描实体书,把纸质书数字化,作为训练数据。 好了,破案的最后一块拼图来了。 既然 AI 吃了大量(可能是几百万册)扫描的纸质书,那么这些书是什么年代的呢? 盗版电子书网站上的书,大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权,扫描的书中,有很大一部分是更古老的、已进入公共领域的作品。 作者找到了一个关于英语标点符号使用频率的研究,它显示: 破折号在英语文学中的使用频率,在 1860 年左右达到了顶峰(约 0.35%),在 19 世纪末和 20 世纪初的使用率,远高于当代英语。 作者举了个例子:著名的《白鲸记》(Moby-Dick,1851年出版)一书中,破折号出现了 1728 次! 真相至此水落石出: 我们现在用的最先进的 AI,它的“标点符号观”并不是从 2020 年的互联网学来的,而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料,把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。 当然,作者也承认,这仍然是一个基于证据的推测,还有一些小疑问没解决: 1. 为什么 AI 只学会了用破折号,却没有学会像《白鲸记》的船长那样说话? 也许模型只是吸收了标点符号这种“潜意识”的风格,而没有吸收具体的用词? 2. 有没有更简单的解释? 比如,Sam Altman 曾随口提过,他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答,觉得那样更“口语化”,所以就“多加了点”。 不过,综合来看,“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会,而 GPT-4 之后的模型(它们都大量训练了新的书籍数据),然后集体对破折号“上瘾”了。 有兴趣可以看看原文: