LLM之分词器(tokenizer)
一、引言
大语言模型在自然语言处理领域取得了巨大成功,而分词器作为其关键组成部分,对模型的性能和效果有着显著影响。今天,我们将探讨四种常见的分词方法:BPE、WordPiece、SentencePiece 和 unigram,剖析它们的技术原理、实现细节及应用场景。
在此之前,我们需要了解一下什么是tokenizition。
任何一段文本,输入给模型,都是要转换成一串embedding。这个过程简单概括为:
- 分词,并把词转换为token(即词的ID)
- token转换成embedding
而tokenization就是在做这第一步。而对于第二步就是常见的Embedding查表操作,即根据token_id的值,去Embedding矩阵中查找第token_id行的数据作为embedding。