コンテンツにスキップ

Code2Promptにおけるトークン化

言語モデルを扱う場合、テキストをモデルが理解できる形式—トークン(数列)に変換する必要があります。この変換は、トークナイザーによって処理されます。


トークナイザーは、生のテキストをトークンに変換します。これは、言語モデルが入力を処理するための基本的な構成要素です。これらのトークンは、トークナイザーの設計に応じて、単語、サブワード、または個々の文字を表すことができます。

code2promptでは、tiktokenトークナイザーを使用します。これは、効率的で堅牢であり、OpenAIモデルに最適化されています。 その機能は、公式リポジトリで確認できます。

👉 tiktoken GitHub リポジトリ

トークナイザー全般について詳しく知りたい場合は、以下を参照してください。

👉 Mistral トークン化ガイド.

トークン化は、tiktoken-rsを使用して実装されます。tiktokenは、OpenAIモデルで使用される以下のエンコーディングをサポートしています。

CLI引数エンコーディング名OpenAIモデル
cl100kcl100k_baseChatGPTモデル、text-embedding-ada-002
p50kp50k_baseコードモデル、text-davinci-002text-davinci-003
p50k_editp50k_edittext-davinci-edit-001code-davinci-edit-001などの編集モデル
r50kr50k_base(またはgpt2davinciなどのGPT-3モデル
gpt2o200k_baseGPT-4oモデル

トークナイザーの詳細については、OpenAI Cookbookを参照してください。

このページは便宜上、自動的に翻訳されています。元のコンテンツについては英語版を参照してください。