Code2Promptにおけるトークン化
言語モデルを扱う場合、テキストをモデルが理解できる形式—トークン(数列)に変換する必要があります。この変換は、トークナイザーによって処理されます。
トークナイザーとは?
Section titled “トークナイザーとは?”トークナイザーは、生のテキストをトークンに変換します。これは、言語モデルが入力を処理するための基本的な構成要素です。これらのトークンは、トークナイザーの設計に応じて、単語、サブワード、または個々の文字を表すことができます。
code2promptでは、tiktokenトークナイザーを使用します。これは、効率的で堅牢であり、OpenAIモデルに最適化されています。
その機能は、公式リポジトリで確認できます。
トークナイザー全般について詳しく知りたい場合は、以下を参照してください。
code2promptでの実装
Section titled “code2promptでの実装”トークン化は、tiktoken-rsを使用して実装されます。tiktokenは、OpenAIモデルで使用される以下のエンコーディングをサポートしています。
| CLI引数 | エンコーディング名 | OpenAIモデル |
|---|---|---|
cl100k | cl100k_base | ChatGPTモデル、text-embedding-ada-002 |
p50k | p50k_base | コードモデル、text-davinci-002、text-davinci-003 |
p50k_edit | p50k_edit | text-davinci-edit-001、code-davinci-edit-001などの編集モデル |
r50k | r50k_base(またはgpt2) | davinciなどのGPT-3モデル |
gpt2 | o200k_base | GPT-4oモデル |
トークナイザーの詳細については、OpenAI Cookbookを参照してください。
このページは便宜上、自動的に翻訳されています。元のコンテンツについては英語版を参照してください。