Tokenisierung in Code2Prompt

Bei der Arbeit mit Sprachmodellen muss Text in ein Format umgewandelt werden, das das Modell verstehen kann – Tokens, die Sequenzen von Zahlen sind. Diese Transformation wird von einem Tokenizer durchgeführt.

Was ist ein Tokenizer?

Ein Tokenizer konvertiert rohen Text in Tokens, die die Bausteine für die Verarbeitung von Eingaben durch Sprachmodelle sind. Diese Tokens können je nach Design des Tokenizers Wörter, Subwörter oder sogar einzelne Zeichen darstellen.

Für code2prompt verwenden wir den tiktoken-Tokenizer. Er ist effizient, robust und für OpenAI-Modelle optimiert. Sie können seine Funktionalität im offiziellen Repository erkunden

👉 tiktoken GitHub Repository

Wenn Sie mehr über Tokenizer im Allgemeinen erfahren möchten, lesen Sie den

👉 Mistral Tokenization Guide.

Implementierung in `code2prompt`

Die Tokenisierung wird mit tiktoken-rs implementiert. tiktoken unterstützt diese Kodierungen, die von OpenAI-Modellen verwendet werden:

CLI-Argument	Kodierungsname	OpenAI-Modelle
`cl100k`	`cl100k_base`	ChatGPT-Modelle, `text-embedding-ada-002`
`p50k`	`p50k_base`	Code-Modelle, `text-davinci-002`, `text-davinci-003`
`p50k_edit`	`p50k_edit`	Für Edit-Modelle wie `text-davinci-edit-001`, `code-davinci-edit-001`
`r50k`	`r50k_base` (oder `gpt2`)	GPT-3-Modelle wie `davinci`
`gpt2`	`o200k_base`	GPT-4o-Modelle

Für mehr Kontext zu den verschiedenen Tokenizern siehe das OpenAI Cookbook

Diese Seite wurde für Ihre Bequemlichkeit automatisch übersetzt. Bitte greifen Sie für den Originalinhalt auf die englische Version zurück.

Tokenisierung in Code2Prompt

Was ist ein Tokenizer?

Implementierung in code2prompt

Implementierung in `code2prompt`