Zum Inhalt springen

Tokenisierung in Code2Prompt

Bei der Arbeit mit Sprachmodellen muss Text in ein Format umgewandelt werden, das das Modell verstehen kann – Tokens, die Sequenzen von Zahlen sind. Diese Transformation wird von einem Tokenizer durchgeführt.


Ein Tokenizer konvertiert rohen Text in Tokens, die die Bausteine für die Verarbeitung von Eingaben durch Sprachmodelle sind. Diese Tokens können je nach Design des Tokenizers Wörter, Subwörter oder sogar einzelne Zeichen darstellen.

Für code2prompt verwenden wir den tiktoken-Tokenizer. Er ist effizient, robust und für OpenAI-Modelle optimiert. Sie können seine Funktionalität im offiziellen Repository erkunden

👉 tiktoken GitHub Repository

Wenn Sie mehr über Tokenizer im Allgemeinen erfahren möchten, lesen Sie den

👉 Mistral Tokenization Guide.

Die Tokenisierung wird mit tiktoken-rs implementiert. tiktoken unterstützt diese Kodierungen, die von OpenAI-Modellen verwendet werden:

CLI-ArgumentKodierungsnameOpenAI-Modelle
cl100kcl100k_baseChatGPT-Modelle, text-embedding-ada-002
p50kp50k_baseCode-Modelle, text-davinci-002, text-davinci-003
p50k_editp50k_editFür Edit-Modelle wie text-davinci-edit-001, code-davinci-edit-001
r50kr50k_base (oder gpt2)GPT-3-Modelle wie davinci
gpt2o200k_baseGPT-4o-Modelle

Für mehr Kontext zu den verschiedenen Tokenizern siehe das OpenAI Cookbook

Diese Seite wurde für Ihre Bequemlichkeit automatisch übersetzt. Bitte greifen Sie für den Originalinhalt auf die englische Version zurück.