一文了解：大模型中的分词（Tokenization）是个啥？

AGI大模型资料分享员

于 2025-07-02 10:55:57 发布

阅读量1.1k

点赞数 25

CC 4.0 BY-SA版权

文章标签：大模型 embedding python 算法大模型学习 token

本文链接：https://blog.csdn.net/m0_48891301/article/details/149064973

分词（Tokenization）是自然语言处理（NLP）中的基础预处理步骤，它架起了原始文本与机器学习模型之间的桥梁。分词过程涉及将文本分解为称为“token”的更小单元，随后这些token被转换为数字ID。这些ID会作为LLM的输入，并通过嵌入层映射为捕捉语义含义的向量表示。

分词方法的选择对LLM的性能和效率起着关键作用。本文将深入探讨三种流行的分词算法：BPE、WordPiece和SentencePiece。每种算法采用不同的方法将文本分割为token，分析其机制、优势与局限性。

1、什么是分词？

分词是将非结构化文本转换为机器学习模型可理解的结构化格式的过程。其核心在于将一段文本（无论是句子、段落还是文档）分割为更小的可管理单元，即“token”。根据所采用的分词策略，这些token可以是单词、子词，甚至是单个字符。分词后，每个token会从预定义词汇表中分配一个数字ID，从而将文本转换为如下所示的数字序列：

接下来，通过查表从预训练的嵌入矩阵中为每个token ID检索词嵌入（向量表示）。这些嵌入捕捉了语义含义，使模型能够理解单词之间的关系，例如“cat”和“kitten”的相似性。这一过程是NLP任务的基础。

2、分词的类型

根据token的粒度，分词策略主要有三种类型：字符级、词级和子词级分词。每种方法各有优劣，具体选择取决于NLP任务的特定需求。

2.1 字符级分词

在字符级标分词中，文本被分割为单个字符。例如，单词“hello”会被标记为[“h”, “e”, “l”, “l”, “o”]。

优势：

有效处理罕见词或词汇表外（OOV）词，因为所有可能的字符都包含在词汇表中。
适用于形态复杂或词边界模糊的语言（如中文、日文）。
与词级分词相比，词汇表规模更小。

劣势：

导致序列变长，增加计算复杂度。
丢失词级语义，使模型更难捕捉词间关系。

2.2 词级分词

在词级分词中，文本被分割为单个单词。例如，句子“I love coding”会被标记为[“I”, “love”, “coding”]。

优势：

保留词级语义，便于模型理解词间关系。
与字符级分词相比，序列更短，减少计算开销。

劣势：

难以处理罕见词或未见过的词（OOV问题）。
词汇表规模可能极大，尤其在形态丰富的语言或处理领域特定术语时。

2.3 子词级分词

子词级分词将单词分割为更小的单元，如前缀、后缀或其他有意义的子词成分。例如，单词“unbelievable”可能被标记为[“un”, “believ”, “able”]。子词级分词的常用算法包括字节对编码（BPE）、WordPiece（用于BERT）和SentencePiece。

优势：

平衡了字符级和词级分词的优缺点，既能轻松处理OOV词，又能保持较短序列
捕捉形态信息，适用于词结构复杂的语言。
与词级分词相比，减少词汇表规模，同时保留部分语义。

劣势：

需要仔细调整子词分割算法，避免过度分割或分割不足。
单词分割方式可能仍存在歧义，尤其对于形态边界不明确的语言。

3、字节对编码（BPE）

字节对编码（BPE）一种平衡词汇量与OOV处理能力的子词分词算法，通过迭代合并最频繁的字符/子词对进行文本压缩。该方法在保留常见完整词的同时拆分罕见词，既高效处理未知词又避免词汇膨胀。

BPE的一个关键优势是能够避免对模型性能不利的UNK（未知）token。当单词不在模型词汇表中时，会产生UNK token，导致：

信息丢失：模型丢弃与未知词相关的所有上下文和含义。
语言表示低效：过多UNK token会扭曲模型对输入的理解。
泛化能力差：当UNK token普遍存在时，模型难以泛化到未见文本。
下游任务性能下降：翻译或摘要等任务会因误解而受损。

3.1 BPE的工作原理

预分词：输入文本首先被分词为更小的单元，通常通过空格或标点分割。例如，句子“applied deep learning”可能被分割为[“applied”, “deep”, “learning”]。
初始词汇表：初始词汇表由文本中的所有单个字符组成。例如，单词“deep”会被拆分为[“d”, “e”, “e”, “p”]。
迭代合并：BPE迭代合并最频繁的字符或token对。例如，如果对(“e”, “e”)是最频繁的，会被合并为单个标记"ee"，并添加到词汇表中。
词汇表更新：合并过程持续到达到预定义的词汇表大小，每次合并操作都会创建新token并添加到词汇表。
最终分词：词汇表确定后，使用学习到的子词单元对文本进行分词。

3.2 示例

以输入文本“low lower lowest”为例：

步骤1：初始字符级分词 → [“l”, “o”, “w”, “l”, “o”, “w”, “e”, “r”, “l”, “o”, “w”, “e”, “s”, “t”]

步骤2：统计字符对频率，最频繁对为"l"和"o"（出现3次）。

步骤3：合并为新标记"lo" → [“lo”, “w”, “lo”, “w”, “e”, “r”, “lo”, “w”, “e”, “s”, “t”]

步骤4：重新统计对频率，最频繁对为"lo"和"w"（出现3次）。

步骤5：合并为新标记"low" → [“low”, “low”, “e”, “r”, “low”, “e”, “s”, “t”]

步骤6：统计对频率，最频繁对为"e"和"r"、“e"和"s”（各1次），任选"e"和"r"合并。

步骤7：合并为"er" → [“low”, “low”, “er”, “low”, “e”, “s”, “t”]

步骤8：最后一次迭代，合并"low"和"er" → 最终分词为[“low”, “lower”, “low”, “e”, “s”, “t”]

优势与局限性

优势：有效处理OOV词，可适应不同语言。
局限性：需要预分词，对中文等无空格语言处理困难。

4、WordPiece

WordPiece是一种类似于BPE的子词分词算法，但其核心区别在于选择合并token的方式：WordPiece不是合并最频繁的对，而是合并能最大化训练数据似然的对，这使其在BERT等模型中尤为有效。

“最大化训练数据似然” 可以简单理解为：合并两个字符 / 子词后，让模型预测整个句子的概率变得更高。WordPiece 的核心就是每次选择合并时，都要计算 “合并后是否让整个训练数据的预测更准确”，而不是单纯选出现最多的组合。

4.1 WordPiece的工作原理

初始词汇表：与BPE类似，从单个字符的词汇表开始。
似然最大化：WordPiece选择合并后能最大化训练数据似然的token对，通过计算对的概率除以单个token概率的乘积来确定，即选择使P(tok1,tok2)/(P(tok1)×P(tok2))最大化的对(tok1, tok2)。

迭代合并：合并选定的对，重复该过程直到达到所需的词汇表大小。
最终标记化：使用学习到的子词单元对文本进行分词。

优势与局限性

优势：有效捕捉有意义的子词单元，广泛应用于BERT等模型。
局限性：与BPE类似，需要预分词，对某些语言可能存在问题。

5、SentencePiece

BPE和WordPiece都需要预分词作为初始步骤，即在合并前将文本分割为子词单元，但这对中文和日文等词边界不明确的语言构成挑战，使预分词困难或不可行。SentencePiece是专门为克服这些限制而设计的标记化算法。与BPE和WordPiece不同，它将输入文本视为原始字符流（包括空格），无需预分词。这种方法使SentencePiece能够无缝处理词边界模糊的语言，成为多语言和非空格分隔语言的通用选择。

5.1 SentencePiece的工作原理

作为字符流的输入：SentencePiece不先将文本分割为单词，而是将整个输入文本视为包括空格在内的连续字符序列。
合并算法：采用与BPE类似的合并算法或一元分词器：

类BPE合并：类似BPE，迭代合并最频繁的字符对。
一元分词器：初始化时使用大量token，逐步修剪每个token以获得更小的词汇表，直到达到所需大小。

空格处理：SentencePiece使用下划线作为空格的占位符。

句子重建：通过连接token并将下划线替换为空格，可重建原始句子。

5.2 示例

对于句子“deep learning engineer”，SentencePiece可能生成标记如[“deep”, “_learning”, “_engineer”]，下划线代表空格，以便重建原句。

优势与局限性

优势：高度灵活，无需预分词即可处理多种语言。
局限性：将空格作为token的一部分，可能使某些应用的输出不够直观。

6、 BPE、WordPiece和SentencePiece的对比

7、结论

分词是为大语言模型准备文本数据的关键步骤。本文讨论的三种算法（BPE、WordPiece和SentencePiece）各有优势，适用于不同场景：BPE和WordPiece分别广泛应用于GPT和BERT等模型，而SentencePiece为多语言应用提供了更高的灵活性。通过理解这些算法的细微差别，从业者可以针对特定的NLP任务，明智地选择合适的分词方法。

8、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】