#语言演化

中文也许获得了千分之一的“上牌桌”机会 这段时间我系统地探讨了语言学,也逐渐意识到:在 AI 时代,真正的语言学能把个人的机会面拉到几乎无限的尺度,所以我会继续深挖。但先声明,我对“宏大叙事”不感兴趣——再宏大的叙事也只是叙事。我认可的是可结构化、可迁移、可调度、可组合的知识;叙事让人感动完就完了,别代入。这也是我把题目定为“千分之一”的原因:把情绪剥离,只做结构化增量。我们技术人,剥离了情绪,才能做事,才能也许完成真正的宏大叙事里描述的目标。 语言学知识:语言自演化 铺垫一个基本概念:语言自演化。早在十五年前,我和一位北外的青年语言学者陈同学就讨论过“语言可以脱离说话的人,成为独立演化体”这件事。那时我们并未预见到大语言模型,但我们的设定已经把“语言的演化体”放在“人类社会与国际体系”的框架中,而不是个体层面。 在这个视角里,语言更像一种自我驱动、以人类为宿主的演化体;英语的崛起并非人类有意投票的结果,而是在全球演化场中自然胜出的过程。所谓“演化场”,是指:人类社会提供人口迁移、贸易、战争、科技传播等“语言基因交换的通道”;国际社会提供多语种接触与竞争的生态位,例如殖民网络、国际组织与学术共同体;而语言本体作为信息—结构系统,会主动寻找最大传播率与最大生存机会的路径,像病毒寻找新的宿主群落那样。 要特别强调:即便不引入计算机,仍必须区分“人类社会”和“个体人”。在我们的设定中,驱动语言演化的是社会结构与国际体系,而非某个说话者的意志。这一点的区分,非常关键。 根据这个理论,我们就能分析出英语是如何“上牌桌”的 它的崛起并不是偶然,而是自身的“演化基因”与适应策略在全球演化场中的持续胜出。首先是结构压缩与可迁移性:英语的形态变化少(屈折衰退),显著降低了学习与传播的认知成本;它还能快速嵌入不同母语的语音系统与词汇体系,例如印度式英语、新加坡英语、非洲英语等。其次是词汇吸收与适配性:英语几乎没有防御机制,能够无差别吸收外来词,从法语的 café 到日语的 tsunami,都能直接纳入,确保在不同文化场域都留有“接口”。第三是多功能性:既可以作为科学技术的精确表达工具,也可以成为文学创作的审美媒介,更能在商业谈判中充当通用代码。最后是寄生与共生策略:英语在殖民、贸易、科技、娱乐等高人口密度、高信息流量的场域扎根,使自己成为这些领域的默认交换媒介。 它的演化路径可以分为四个阶段。第一阶段是殖民扩张,相当于宿主群落迁移。大英帝国的扩张,将英语植入不同大陆的行政、教育与法律系统,第二阶段是工业革命,技术增强了它的传播机制。英语借助科技说明书、贸易合同、机械手册,在工业领域自我复制,把自己写进机器与制度的标准化语言中。第三阶段是美国崛起,成为新宿主的放大器。二战后,美国变成英语的超大信息输出源——学术、电影、音乐、电视、互联网都是它的全球扩音器。第四阶段是互联网时代,进入自我演化加速期。网络协议、编程语言、早期网页内容大多以英语为主,使其借助数字技术实现“去地理化的复制”,不再依赖单一国家。 到今天,英语已经呈现出语言脱离人类的迹象。记得立党说过,小语种不用学了。如果一个来自小语种地区的人无法用英语和你交流,那你也没有和他交流的必要了。很残酷但是我同意他。英语的地位无法动摇。 切记语言也是一种残酷的世界博弈丛林 从世界科技发展的角度看,语言的演化同样是一片残酷的博弈丛林,成千上万的语言在竞争中消失殆尽。即便是曾经辉煌至极的伊斯兰文明,发明了阿拉伯数字的阿拉伯语,在关键科技范式转折节点上也没有获得“上牌桌”的资格。放眼当下,真正能在全球语言竞争中有席位的,也只有2个力量级别的参与者——东方的大国或许还有一搏的机会,西方的大国牢牢占据优势。 思考这个问题时,必须尽量摆脱“中文是母语”的惯性,这虽然困难,但很重要。我这些年一直观察语言竞争的底层规则,总结下来有三条生存法则。第一,绑定最新的科技范式。阿拉伯语之所以失势,是因为它没能在工业革命、蒸汽机、现代科学方法论等时代,形成全球化的科技协议;而英语则完成了“蒸汽机—工业革命—殖民—互联网—AI”五连跳,每一次科技平台更迭都完成了语言的迁移绑定。第二,占据全球标准的接口位。只有当一门语言在科学论文、工程规范、数据协议、贸易合同、软件 API 等核心环节成为默认格式,才能拥有全球竞争力。第三,持续生成高质量、可迁移的知识。如果一门语言的产出只停留在文学、文化、宗教价值,而在最新科技和工程标准上贡献不足,就会被挤出全球技术体系。中国在文化输出上的努力,比如孔子学院,并没有在技术层面产生决定性影响;一带一路时期虽然让我有机会在乔治梅森大学免费观看高水准演出,但这种表演的文化成就,并不能转化为科技语言的竞争力。叙事其实没啥用,纯属自我感动。 由此提炼出的结构性结论是:过去的辉煌无法保证未来的地位,唐诗宋词的成就无法直接为未来科技竞争加分;科技范式绑定是唯一的保险,必须在 AI 底层协议、模型训练标准、跨语言桥接算法等新接口位上占据一席之地;而接口位缺席就等于出局,一旦 AI 的知识生成、任务调度、跨领域协作全部在英语协议内运转,中文就会退化为一种本土生态语言,在全球科技丛林中失去生存权。 这场丛林博弈的残酷性在于:世界语言竞争不是文化比赛,而是技术、经济与制度绑定的资源争夺战。一门语言的母语人口再多、历史文化再深厚,都不构成决定性优势——即使一半的 AI 研究员都是华人,这也不会自动赋予中文全球科技语言的地位。只有在新科技平台的诞生期完成语言绑定,才能真正进入全球科技的长期博弈牌桌。 在前500年,中文肯定已错过。这一把目前遇到的唯一机会,如果错过,会不会又失去500年? 乾隆和华盛顿是同龄人。如果把语言看作一种在科技范式中竞争生存的自演化系统,那么中文可能处在一个500年一遇的窗口。回望近代,科学范式的起点、工业革命的关键接口、近代全球化的起跑线,中文都缺席了。这几个世纪里,中文没有绑定任何一代全球性科技平台,也就失去了数百年的演化增益。 我之所以认为今天或许还有一丝机会,是因为AI是一个以语言为驱动的科技平台,这是历史上极为罕见的——语言本身成为平台内核的科技范式。而且,全球标准尚未完全固化。中文确实有一些原生优势:汉字高压缩度带来的信息密度,高组合性带来的表达灵活,语义模糊性利于多义推理,再加上遍布全球的华人网络。如果这一次再错过,就不是失去10年,而可能再失去500年。 AI的协议锁定效应非常强,一旦AI交互、任务调度、知识组织的底层协议以英语为母语定型,未来几十年甚至几百年的AI技术与产业生态都将围绕英语运行,就像工业革命时代确立的工程规范和法律合同格式延续至今,语言的地位一旦固化,就极难被替代。全球知识生产的语言垄断会随之形成——如果中文不能进入AI知识生成的主流循环,未来全球核心的科研、工程、商业知识将首先用英语生成,再翻译到中文,这种“二手语言地位”会在几代人中被固化。更严重的是,长期的认知生态将被动化。语言是思维与技术的接口,如果未来500年的主要科技符号系统全部用英语构建,那么中文用户的认知工具、教育体系、产业创新都会在一个次级循环里运行,始终处在被动位置。 科学革命(错过) 工业革命(错过) 信息革命(半参与) AI革命(唯一全参与窗口) 语言的全球地位不是靠“文化符号输出”塑造的,而是靠“嵌入式结构绑定”塑造的。孔子学院、“文化走出去”、一带一路文艺演出,这些更多是表层的文化展示,这里面的腐败很多官二代甚至拿孔子学院来办工签;而抖音这种平台属于底层交互与生态的嵌入,两者的效果完全不在一个量级。抖音牛逼。 这个窗口极小,门槛极高,但是8090后还真有一丝可能性把中文抬上牌桌。 咱这代人的素质确实高。80/90 后既见证了中文互联网的崛起——从贴吧、QQ、早期微博到微信——又在学习或工作中深度接触了英语科技体系,包括编程、学术论文和开源社区。能在两种语言协议之间自由切换,理解技术和文化的双重逻辑,这在历史上极为罕见。更重要的是,这一代人中有不少具备工程–产品–内容三位一体的经验:既会写代码,又懂商业模式,还能生产内容或运营社群。这类人才恰好是语言嵌入科技平台的关键,因为他们能从底层协议一直打通到用户体验。同时,他们兼具全球视野与本土执行力——既有大规模出国留学的背景,又参与过国内互联网的高速发展,既懂全球标准,也熟悉中文生态的快速试错节奏。 然而,机会虽在,可能性却极小。这个时间窗口或许只有 5–8 年。如果 80/90 后这一代无法在这段时间内完成一次技术标准与语言协议绑定的突破,那么中文在 AI 时代的全球结构语言竞争中几乎必然再次缺席。那“一丝”机会,正来自于语言即接口这一历史罕见的科技范式,以及这一代人所独有的“双栖”能力。 这是我个人的判断。但是具体实施的可行性,并不是我个人的能力能够推演的。我只能持续观察,并且把文章写出来而已。 中文的缺点 那缺点真是一箩筐。我因为出国时间太久,这方面肯定不如国内的推友了解,像防火墙这样的机制更是完全搞不懂。但单从数据看,中文在全球互联网内容里的比例小得惊人。按 W3Techs 2024 年底的统计,以网页语言计,中文(简体+繁体)大约只占 1.4%–1.5% 的全球网站内容;而在大型语言模型的训练集(如 Common Crawl、Wikipedia、书籍、新闻)中,中文占比通常也远低于中文互联网用户在全球的比例——以 Common Crawl 数据为例,中文内容只占 1.2%–1.5%。 更关键的是,在学术论文、专利、工程标准、技术文档等高质量、结构化的语料中,中文的全球占比更低。SCI 收录的中文论文不到总量的 1.5%;国际专利文献中,以中文提交的专利大约占 5%–6%,且多数都有英文版本。从这个角度看,用“弱爆了”形容中文的全球存在感,恐怕都算是委婉的。