Перейти к содержимому

Токенизация в Code2Prompt

При работе с языковыми моделями текст необходимо преобразовать в формат, который модель может понять — токены, являющиеся последовательностями чисел. Это преобразование выполняется токенизатором.


Токенизатор преобразует сырой текст в токены, которые являются строительными блоками для обработки входных данных языковыми моделями. Эти токены могут представлять слова, под слова или даже отдельные символы, в зависимости от конструкции токенизатора.

Для code2prompt мы используем tiktoken токенизатор. Он эффективен, надежен и оптимизирован для моделей OpenAI. Вы можете изучить его функциональность в официальном репозитории

👉 репозиторий tiktoken на GitHub

Если вы хотите узнать больше о токенизаторе в целом, ознакомьтесь с

👉 Руководством по токенизации Mistral.

Токенизация реализована с помощью tiktoken-rs. tiktoken поддерживает следующие кодировки, используемые моделями OpenAI:

Аргумент CLIИмя кодировкиМодели OpenAI
cl100kcl100k_baseМодели ChatGPT, text-embedding-ada-002
p50kp50k_baseМодели кода, text-davinci-002, text-davinci-003
p50k_editp50k_editИспользуется для моделей редактирования, таких как text-davinci-edit-001, code-davinci-edit-001
r50kr50k_base (или gpt2)Модели GPT-3, такие как davinci
gpt2o200k_baseМодели GPT-4o

Для более глубокого понимания различных токенизаторов см. OpenAI Cookbook

Эта страница была автоматически переведена для вашего удобства. Обратитесь к английской версии для получения оригинального содержания.