Aller au contenu

Tokenisation dans Code2Prompt

Lorsque l’on travaille avec des modèles de langage, le texte doit être transformé en un format que le modèle peut comprendre — tokens, qui sont des séquences de nombres. Cette transformation est gérée par un tokeniseur.


Un tokeniseur convertit le texte brut en tokens, qui sont les blocs de construction pour la façon dont les modèles de langage traitent l’entrée. Ces tokens peuvent représenter des mots, des sous-mots ou même des caractères individuels, selon la conception du tokeniseur.

Pour code2prompt, nous utilisons le tokeniseur tiktoken. Il est efficace, robuste et optimisé pour les modèles OpenAI. Vous pouvez explorer sa fonctionnalité dans le référentiel officiel

👉 Référentiel GitHub de tiktoken

Si vous souhaitez en savoir plus sur les tokeniseurs en général, consultez le

👉 Guide de tokenisation Mistral.

La tokenisation est implémentée à l’aide de tiktoken-rs. tiktoken prend en charge ces encodages utilisés par les modèles OpenAI :

Argument CLINom de l’encodageModèles OpenAI
cl100kcl100k_baseModèles ChatGPT, text-embedding-ada-002
p50kp50k_baseModèles de code, text-davinci-002, text-davinci-003
p50k_editp50k_editUtiliser pour les modèles d’édition comme text-davinci-edit-001, code-davinci-edit-001
r50kr50k_base (ou gpt2)Modèles GPT-3 comme davinci
gpt2o200k_baseModèles GPT-4o

Pour plus de contexte sur les différents tokeniseurs, consultez le OpenAI Cookbook

Cette page a été traduite automatiquement pour votre commodité. Veuillez vous référer à la version anglaise pour le contenu original.