0 关注者

2周前

很多人会直觉觉得：中文字少，token 应该也更少；但在大语言模型里，这不一定成立。token 不是按字数算，而是按 tokenizer 的切分方式算。英语虽然看起来更长，但常见单词、词根、前后缀会被分词器高效压缩，所以一整句英文常常只占较少的 token；而中文往往是一个字接近一个 token，或者几个字组成一个 token，稳定性不如英文。文言文也是同理，虽然字数更短，但因为古汉语表达、词组合

热门新闻