Saltearse al contenido

Tokenización en Code2Prompt

Cuando se trabaja con modelos de lenguaje, el texto debe transformarse en un formato que el modelo pueda entender: tokens, que son secuencias de números. Esta transformación se realiza mediante un tokenizador.


Un tokenizador convierte texto sin procesar en tokens, que son los bloques de construcción para cómo los modelos de lenguaje procesan la entrada. Estos tokens pueden representar palabras, subpalabras o incluso caracteres individuales, dependiendo del diseño del tokenizador.

Para code2prompt, utilizamos el tokenizador tiktoken. Es eficiente, robusto y optimizado para modelos de OpenAI. Puedes explorar su funcionalidad en el repositorio oficial

👉 Repositorio de GitHub de tiktoken

Si deseas aprender más sobre tokenizadores en general, consulta

👉 Guía de Tokenización de Mistral.

La tokenización se implementa utilizando tiktoken-rs. tiktoken admite estos codificaciones utilizadas por los modelos de OpenAI:

Argumento de CLINombre de codificaciónModelos de OpenAI
cl100kcl100k_baseModelos de ChatGPT, text-embedding-ada-002
p50kp50k_baseModelos de código, text-davinci-002, text-davinci-003
p50k_editp50k_editUtilizar para modelos de edición como text-davinci-edit-001, code-davinci-edit-001
r50kr50k_base (o gpt2)Modelos de GPT-3 como davinci
gpt2o200k_baseModelos de GPT-4o

Para obtener más contexto sobre los diferentes tokenizadores, consulta OpenAI Cookbook

Esta página ha sido traducida automáticamente para su conveniencia. Consulte la versión en inglés para ver el contenido original.