Code2Prompt 中的分词

在处理语言模型时，文本需要转换为模型可以理解的格式——tokens，即数字序列。这种转换由 tokenizer 处理。

什么是 Tokenizer？

Tokenizer 将原始文本转换为 tokens，这些是语言模型处理输入的基本单位。这些 tokens 可以根据 tokenizer 的设计表示单词、子单词甚至单个字符。

对于 code2prompt，我们使用 tiktoken tokenizer。它高效、稳健，并针对 OpenAI 模型进行了优化。您可以在官方仓库中探索其功能

如果您想了解更多关于 tokenizer 的信息，请查看

分词使用 tiktoken-rs 实现。tiktoken 支持 OpenAI 模型使用的以下编码：

命令行参数	编码名称	OpenAI 模型
`cl100k`	`cl100k_base`	ChatGPT 模型，`text-embedding-ada-002`
`p50k`	`p50k_base`	代码模型，`text-davinci-002`，`text-davinci-003`
`p50k_edit`	`p50k_edit`	用于编辑模型，如 `text-davinci-edit-001`，`code-davinci-edit-001`
`r50k`	`r50k_base`（或 `gpt2`）	GPT-3 模型，如 `davinci`
`gpt2`	`o200k_base`	GPT-4o 模型

有关不同 tokenizer 的更多上下文，请参阅 OpenAI Cookbook

为了您的方便，本页面已自动翻译。请参考英文版本获取原始内容。