Tokenización en Code2Prompt

Cuando se trabaja con modelos de lenguaje, el texto debe transformarse en un formato que el modelo pueda entender: tokens, que son secuencias de números. Esta transformación se realiza mediante un tokenizador.

¿Qué es un Tokenizador?

Un tokenizador convierte texto sin procesar en tokens, que son los bloques de construcción para cómo los modelos de lenguaje procesan la entrada. Estos tokens pueden representar palabras, subpalabras o incluso caracteres individuales, dependiendo del diseño del tokenizador.

Para code2prompt, utilizamos el tokenizador tiktoken. Es eficiente, robusto y optimizado para modelos de OpenAI. Puedes explorar su funcionalidad en el repositorio oficial

👉 Repositorio de GitHub de tiktoken

Si deseas aprender más sobre tokenizadores en general, consulta

👉 Guía de Tokenización de Mistral.

Implementación en `code2prompt`

La tokenización se implementa utilizando tiktoken-rs. tiktoken admite estos codificaciones utilizadas por los modelos de OpenAI:

Argumento de CLI	Nombre de codificación	Modelos de OpenAI
`cl100k`	`cl100k_base`	Modelos de ChatGPT, `text-embedding-ada-002`
`p50k`	`p50k_base`	Modelos de código, `text-davinci-002`, `text-davinci-003`
`p50k_edit`	`p50k_edit`	Utilizar para modelos de edición como `text-davinci-edit-001`, `code-davinci-edit-001`
`r50k`	`r50k_base` (o `gpt2`)	Modelos de GPT-3 como `davinci`
`gpt2`	`o200k_base`	Modelos de GPT-4o

Para obtener más contexto sobre los diferentes tokenizadores, consulta OpenAI Cookbook

Esta página ha sido traducida automáticamente para su conveniencia. Consulte la versión en inglés para ver el contenido original.

Tokenización en Code2Prompt

¿Qué es un Tokenizador?

Implementación en code2prompt

Implementación en `code2prompt`