#破折号

4个月前

关于 ChatGPT 为什么喜欢用破折号，这个问题的原因似乎现在还没有定论，不过刚看到一篇博客分析这个问题，还挺有趣。先说一个有趣的问题是 AI 特别喜欢用 "delve"（深入探究）这个词。这个现象的答案是已知的：RLHF（人类反馈强化学习）。简单说，AI 模型训练的最后一步，是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中，"delve" 是一个非常常用且得体的词汇。于是，当 AI 用 "delve" 时，非洲的导师们觉得“这话说得不错”，就给了高分。AI 就此学会了：“哦，客户喜欢我用‘delve’。” 那么，破折号也是因为这个原因吗？作者顺着这个思路去查证：是不是非洲英语里也特别爱用破折号？结果，并不是！尼日利亚英语破折号的出现频率（每词 0.022%）远低于普通英语的平均水平（0.25% 到 0.275%）。这说明，“深入探究”（delve）和“破折号”（—）这两个 AI “口音”，来源并不相同。作者最终发现了一个决定性的线索：时间。大家回忆一下，2022 年底的 GPT-3.5，其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。不只是 OpenAI，谷歌和 Anthropic 的模型，包括一些中国的大模型，都开始用破折号。那么，从 2022 年到 2024 年，所有 AI 实验室的训练数据，到底发生了什么共同的变化？答案是：AI 公司的“数据荒”来了，它们开始疯狂“喂”AI 吃书——特别是“旧书”。在 2022 年，AI 主要吃的是互联网上的公开数据、盗版电子书（比如 LibGen 上的）。但很快，这些数据就不够用了，而且质量良莠不齐。为了让模型变得更“有文化”、更“高质量”，AI 公司们（法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作，OpenAI 只会更早）启动了一个庞大的工程：大规模扫描实体书，把纸质书数字化，作为训练数据。好了，破案的最后一块拼图来了。既然 AI 吃了大量（可能是几百万册）扫描的纸质书，那么这些书是什么年代的呢？盗版电子书网站上的书，大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权，扫描的书中，有很大一部分是更古老的、已进入公共领域的作品。作者找到了一个关于英语标点符号使用频率的研究，它显示：破折号在英语文学中的使用频率，在 1860 年左右达到了顶峰（约 0.35%），在 19 世纪末和 20 世纪初的使用率，远高于当代英语。作者举了个例子：著名的《白鲸记》（Moby-Dick，1851年出版）一书中，破折号出现了 1728 次！真相至此水落石出：我们现在用的最先进的 AI，它的“标点符号观”并不是从 2020 年的互联网学来的，而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。当然，作者也承认，这仍然是一个基于证据的推测，还有一些小疑问没解决： 1. 为什么 AI 只学会了用破折号，却没有学会像《白鲸记》的船长那样说话？也许模型只是吸收了标点符号这种“潜意识”的风格，而没有吸收具体的用词？ 2. 有没有更简单的解释？比如，Sam Altman 曾随口提过，他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答，觉得那样更“口语化”，所以就“多加了点”。不过，综合来看，“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会，而 GPT-4 之后的模型（它们都大量训练了新的书籍数据），然后集体对破折号“上瘾”了。有兴趣可以看看原文：

#ChatGPT #破折号 #AI #旧书 #语言模型

4个月前

教程：如何去掉ChatGPT臭名昭著的：破折号以及让GPT 不再一味奉承你... ChatGPT 痴迷破折号而要让它不再使用破折号——真的很难。难到什么程度？它几乎成了 ChatGPT 的象征。破折号已经成了人们一眼就能判断一篇文章是否由 AI 写的标志😂 你可能以为只要告诉它：“别再用破折号”，就行。但事实并非如此。你必须给 ChatGPT 一个替代方案。否则它会继续用。 🪄 让我们来做个分步教程：去掉破折号 1️⃣ 打开 ChatGPT 左下角的菜单。 2️⃣ 进入 “个性化设置（Personalization）”。 3️⃣ 启用 “自定义指令（Custom Instructions）”。然后，在自定义指令中输入这个神奇提示： "Systematically replace em-dashes (“—”) with a dot (“.”) to start a new sentence, or a comma (“,”) to continue the sentence."

#ChatGPT #破折号 #AI写作 #自定义指令 #教程