跳转到内容

Code2Prompt 中的分词

在处理语言模型时,文本需要转换为模型可以理解的格式——tokens,即数字序列。这种转换由 tokenizer 处理。


Tokenizer 将原始文本转换为 tokens,这些是语言模型处理输入的基本单位。这些 tokens 可以根据 tokenizer 的设计表示单词、子单词甚至单个字符。

对于 code2prompt,我们使用 tiktoken tokenizer。它高效、稳健,并针对 OpenAI 模型进行了优化。 您可以在官方仓库中探索其功能

👉 tiktoken GitHub 仓库

如果您想了解更多关于 tokenizer 的信息,请查看

👉 Mistral 分词指南.

分词使用 tiktoken-rs 实现。tiktoken 支持 OpenAI 模型使用的以下编码:

命令行参数编码名称OpenAI 模型
cl100kcl100k_baseChatGPT 模型,text-embedding-ada-002
p50kp50k_base代码模型,text-davinci-002text-davinci-003
p50k_editp50k_edit用于编辑模型,如 text-davinci-edit-001code-davinci-edit-001
r50kr50k_base(或 gpt2GPT-3 模型,如 davinci
gpt2o200k_baseGPT-4o 模型

有关不同 tokenizer 的更多上下文,请参阅 OpenAI Cookbook

为了您的方便,本页面已自动翻译。请参考英文版本获取原始内容。