Токенизация в Code2Prompt
При работе с языковыми моделями текст необходимо преобразовать в формат, который модель может понять — токены, являющиеся последовательностями чисел. Это преобразование выполняется токенизатором.
Что такое токенизатор?
Заголовок раздела «Что такое токенизатор?»Токенизатор преобразует сырой текст в токены, которые являются строительными блоками для обработки входных данных языковыми моделями. Эти токены могут представлять слова, под слова или даже отдельные символы, в зависимости от конструкции токенизатора.
Для code2prompt
мы используем tiktoken токенизатор. Он эффективен, надежен и оптимизирован для моделей OpenAI.
Вы можете изучить его функциональность в официальном репозитории
👉 репозиторий tiktoken на GitHub
Если вы хотите узнать больше о токенизаторе в целом, ознакомьтесь с
👉 Руководством по токенизации Mistral.
Реализация в code2prompt
Заголовок раздела «Реализация в code2prompt»Токенизация реализована с помощью tiktoken-rs
. tiktoken
поддерживает следующие кодировки, используемые моделями OpenAI:
Аргумент CLI | Имя кодировки | Модели OpenAI |
---|---|---|
cl100k | cl100k_base | Модели ChatGPT, text-embedding-ada-002 |
p50k | p50k_base | Модели кода, text-davinci-002 , text-davinci-003 |
p50k_edit | p50k_edit | Используется для моделей редактирования, таких как text-davinci-edit-001 , code-davinci-edit-001 |
r50k | r50k_base (или gpt2 ) | Модели GPT-3, такие как davinci |
gpt2 | o200k_base | Модели GPT-4o |
Для более глубокого понимания различных токенизаторов см. OpenAI Cookbook
Эта страница была автоматически переведена для вашего удобства. Обратитесь к английской версии для получения оригинального содержания.