Токенизация в Code2Prompt

При работе с языковыми моделями текст необходимо преобразовать в формат, который модель может понять — токены, являющиеся последовательностями чисел. Это преобразование выполняется токенизатором.

Что такое токенизатор?

Токенизатор преобразует сырой текст в токены, которые являются строительными блоками для обработки входных данных языковыми моделями. Эти токены могут представлять слова, под слова или даже отдельные символы, в зависимости от конструкции токенизатора.

Для code2prompt мы используем tiktoken токенизатор. Он эффективен, надежен и оптимизирован для моделей OpenAI. Вы можете изучить его функциональность в официальном репозитории

👉 репозиторий tiktoken на GitHub

Если вы хотите узнать больше о токенизаторе в целом, ознакомьтесь с

👉 Руководством по токенизации Mistral.

Реализация в `code2prompt`

Токенизация реализована с помощью tiktoken-rs. tiktoken поддерживает следующие кодировки, используемые моделями OpenAI:

Аргумент CLI	Имя кодировки	Модели OpenAI
`cl100k`	`cl100k_base`	Модели ChatGPT, `text-embedding-ada-002`
`p50k`	`p50k_base`	Модели кода, `text-davinci-002`, `text-davinci-003`
`p50k_edit`	`p50k_edit`	Используется для моделей редактирования, таких как `text-davinci-edit-001`, `code-davinci-edit-001`
`r50k`	`r50k_base` (или `gpt2`)	Модели GPT-3, такие как `davinci`
`gpt2`	`o200k_base`	Модели GPT-4o

Для более глубокого понимания различных токенизаторов см. OpenAI Cookbook

Эта страница была автоматически переведена для вашего удобства. Обратитесь к английской версии для получения оригинального содержания.

Токенизация в Code2Prompt

Что такое токенизатор?

Реализация в code2prompt

Реализация в `code2prompt`