Tokenización en Code2Prompt
Cuando se trabaja con modelos de lenguaje, el texto debe transformarse en un formato que el modelo pueda entender: tokens, que son secuencias de números. Esta transformación se realiza mediante un tokenizador.
¿Qué es un Tokenizador?
Sección titulada «¿Qué es un Tokenizador?»Un tokenizador convierte texto sin procesar en tokens, que son los bloques de construcción para cómo los modelos de lenguaje procesan la entrada. Estos tokens pueden representar palabras, subpalabras o incluso caracteres individuales, dependiendo del diseño del tokenizador.
Para code2prompt
, utilizamos el tokenizador tiktoken. Es eficiente, robusto y optimizado para modelos de OpenAI.
Puedes explorar su funcionalidad en el repositorio oficial
👉 Repositorio de GitHub de tiktoken
Si deseas aprender más sobre tokenizadores en general, consulta
👉 Guía de Tokenización de Mistral.
Implementación en code2prompt
Sección titulada «Implementación en code2prompt»La tokenización se implementa utilizando tiktoken-rs
. tiktoken
admite estos codificaciones utilizadas por los modelos de OpenAI:
Argumento de CLI | Nombre de codificación | Modelos de OpenAI |
---|---|---|
cl100k | cl100k_base | Modelos de ChatGPT, text-embedding-ada-002 |
p50k | p50k_base | Modelos de código, text-davinci-002 , text-davinci-003 |
p50k_edit | p50k_edit | Utilizar para modelos de edición como text-davinci-edit-001 , code-davinci-edit-001 |
r50k | r50k_base (o gpt2 ) | Modelos de GPT-3 como davinci |
gpt2 | o200k_base | Modelos de GPT-4o |
Para obtener más contexto sobre los diferentes tokenizadores, consulta OpenAI Cookbook
Esta página ha sido traducida automáticamente para su conveniencia. Consulte la versión en inglés para ver el contenido original.