周尔复 0 关注者 关注 2周前 很多人会直觉觉得:中文字少,token 应该也更少;但在大语言模型里,这不一定成立。token 不是按字数算,而是按 tokenizer 的切分方式算。英语虽然看起来更长,但常见单词、词根、前后缀会被分词器高效压缩,所以一整句英文常常只占较少的 token;而中文往往是一个字接近一个 token,或者几个字组成一个 token,稳定性不如英文。文言文也是同理,虽然字数更短,但因为古汉语表达、词组合 前往原网页查看