Code2Promptにおけるトークン化

言語モデルを扱う場合、テキストをモデルが理解できる形式—トークン（数列）に変換する必要があります。この変換は、トークナイザーによって処理されます。

トークナイザーとは？

トークナイザーは、生のテキストをトークンに変換します。これは、言語モデルが入力を処理するための基本的な構成要素です。これらのトークンは、トークナイザーの設計に応じて、単語、サブワード、または個々の文字を表すことができます。

code2promptでは、tiktokenトークナイザーを使用します。これは、効率的で堅牢であり、OpenAIモデルに最適化されています。その機能は、公式リポジトリで確認できます。

トークナイザー全般について詳しく知りたい場合は、以下を参照してください。

トークン化は、tiktoken-rsを使用して実装されます。tiktokenは、OpenAIモデルで使用される以下のエンコーディングをサポートしています。

CLI引数	エンコーディング名	OpenAIモデル
`cl100k`	`cl100k_base`	ChatGPTモデル、`text-embedding-ada-002`
`p50k`	`p50k_base`	コードモデル、`text-davinci-002`、`text-davinci-003`
`p50k_edit`	`p50k_edit`	`text-davinci-edit-001`、`code-davinci-edit-001`などの編集モデル
`r50k`	`r50k_base`（または`gpt2`）	`davinci`などのGPT-3モデル
`gpt2`	`o200k_base`	GPT-4oモデル

トークナイザーの詳細については、OpenAI Cookbookを参照してください。

このページは便宜上、自動的に翻訳されています。元のコンテンツについては英語版を参照してください。