2025-09-10

什么是词元分词

AI领域如火如荼，大语言模型（LLM）等技术日新月异，它们能够理解、生成甚至翻译人类语言。但要让这些看似智能的AI真正理解我们说的话，就像小孩学说话一样，需要先将复杂的语言分解成更小的、可处理的单元。这个过程在AI领域，就叫做“词元分词”（Tokenization），或者更通俗地说，就是“给语言切块儿”。

什么是词元分词？

想象一下，你面前有一条由五颜六色的积木搭成的长龙，这些积木紧密相连，代表着一篇完整的文章。AI要理解这条长龙的含义，首先得把它拆分成一个个单独的积木块，这些积木块，就是我们所说的“词元”（Token）。词元可以是单词、词组、标点符号，甚至是单个字符或者更小的语言单位。将文本分割成这些有意义的词元的过程，就是“词元分词”或者“分词”。

AI为何需要“切块儿”？

对于人类来说，我们天生就能理解语言的结构和含义。但对AI而言，一段连续的文本只是一串无差别的字符流。如果不进行分词，AI就无法识别出哪些字符组合在一起代表一个意思，哪些又是独立的。就像让一个孩子读一个没有空格的长句子：“我爱北京天安门”，他会很难理解。只有把句子切割成“我”、“爱”、“北京”、“天安门”，孩子才能逐个理解这些词的含义，并最终领会整个句子的意思。

所以，词元分词是AI理解和处理自然语言的第一步，也是最关键的一步。它将复杂的语言信息结构化，使其能够被计算机程序识别、存储和计算。

日常生活中的分词：中英文的差异

不同语言的分词方式大相径庭，这跟它们的语言特性有关：

英文等以空格分隔的语言：
在英文中，单词之间通常有空格作为天然的分隔符，比如“I love AI”。这让分词看起来很简单，只要按空格切开就行。但实际情况会更复杂一些。比如，“don’t”是一个词还是“do”和“n’t”两个词？“GPT-4”中的连字符如何处理？标点符号是词元的一部分还是单独的词元？这些都需要分词器（Tokenizer）来决定。
中文等不以空格分隔的语言：
中文的句子就更像一串紧密相连的积木，每个字之间没有空格。比如“我爱北京天安门”，如果直接按字拆分，会得到“我”、“爱”、“北”、“京”、“天”、“安”、“门”，这显然丢失了“北京”和“天安门”这两个完整词组的含义。因此，中文的分词要复杂得多，它需要根据词典、语法规则和统计模型来判断词的边界。这就像一位经验丰富的木匠，能够识别出哪些木块天然地属于一个部分，哪些应该单独分开。

从“词”到“子词”：更精细的切割艺术

早期的分词主要集中在“词级别”和“字符级别”：

词级别分词： 以完整的单词作为词元。
字符级别分词： 将每个字符都视为一个词元。

这两种方法都有局限性。词级别分词会遇到“未登录词”（Out-of-Vocabulary, OOV）问题，即AI从未见过的新词或罕见词。比如，如果训练数据里没有“unbelievable”这个词，即使它知道“un”、“believe”和“able”的意思，也可能识别不出这个完整词的含义。而字符级别分词虽然能解决OOV问题，但处理效率低，且单个字符通常不包含太多语义信息。

为了解决这些问题，现代AI，尤其是大语言模型（LLM），普遍采用了一种更先进的技术——子词分词（Subword Tokenization）。这就像将大块积木分解成更小的、但仍然有意义的“乐高积木块”。

子词分词的核心思想是：将一个词拆分成更小的、频繁出现的子模块。例如，“unbelievable”可能会被拆分成“un”、“believe”和“able”。这样有几个显著好处：

处理未登录词： 即使AI从未见过“unbelievable”，但它可能见过“un-”、“believe”和“-able”这些常见的词缀或词根，通过组合这些子词，它依然能理解这个词的含义。
平衡词汇量： 既不像词级别分词那样有巨大的词汇表（可能导致模型过于庞大），也不像字符级别分词那样词汇表太小（导致上下文信息不足）。子词分词能在词汇量和表达能力之间找到一个很好的平衡点。
减少模型训练负担： 更小的词汇量意味着更少的参数，从而加速模型训练，提高效率。

目前主流的子词分词算法包括：

BPE（Byte Pair Encoding，字节对编码）： 这是一种经典的算法，它通过统计文本中相邻字符对（或子词对）出现的频率， iteratively 地将最频繁出现的对合并成一个新的子词。想象一下，你有一堆字母，BPE会找出“th”组合出现最多，然后把它当作一个新单位“_th”。接着，“_th”和“e”组合出现最多，就合并成“_the”。这样逐步构建出一个词汇表。BPE简单有效，有助于模型更快收敛，并管理超出字典的单词。
WordPiece： 作为BPE的一种变体，WordPiece在合并字符或子词时，会选择那些能够最大化合并后语言模型概率的相邻子词。它在考虑到上下文的情况下，提供了更好的词汇表示能力，尤其适用于多语言场景。
SentencePiece： 由谷歌开发，是一种语言无关的子词分词工具包，集成了BPE和Unigram LM等算法，能够处理多语言问题，包括那些没有明确空格分隔符的语言，例如中文和日文。SentencePiece的优势在于能够统一处理不同语言的编码和分词，解决了不同语言处理中的各种挑战。它通过生成一个大的词汇表来表示子词，有效降低了“未登录词”问题。

这些子词分词方法各有优缺点，例如BPE有助于模型更快收敛，WordPiece考虑了语义信息，而SentencePiece则提供了语言无关的解决方案。一个理想的分词器应该对不同语料和应用场景有高度的适应性，能够自动学习和调整分词策略。

大语言模型与分词的未来

在大型语言模型 (LLM) 中，分词器扮演着至关重要的角色。它们将人类文本转换为模型可以理解的数值序列（即词元ID），这些ID随后会被转换为词嵌入（embeddings），供模型进行深度学习处理。

随着AI技术的飞速发展，特别是大语言模型领域的突破，分词技术也在不断演进。有观点认为，未来对LLM的所有输入都可能从文本词元转向图像像素。这意味着，即便你输入的是纯文本，模型也可能先将其“渲染”成图片再进行处理，这样做的好处包括更高的信息压缩率、更通用的信息流以及更强大的处理能力，并可能彻底淘汰传统的文本分词器。不过，这仍是一个前瞻性的设想，目前主流大模型的开发依然离不开高效准确的分词技术。

总结

词元分词，这个看似简单的“切块儿”操作，却是人工智能理解人类语言的基石。从最初的简单按空格或词典分词，到如今精细的子词分词技术，它一直在默默推动着AI在自然语言处理领域取得突破性进展。理解了词元分词，你就掌握了AI理解我们世界的第一把钥匙。