Der ChatGPT-Tokenizer zählt genau, wie viele Tokens Ihr Text für OpenAI-Modelle benötigt. Fügen Sie beliebigen Text ein, und er liefert die exakte Token-Anzahl — dieselbe Zahl, die die API Ihnen berechnet — plus eine farbige, tokenweise Ansicht, damit Sie sehen, wo das Modell Ihre Wörter aufteilt. Er läuft vollständig in Ihrem Browser mit tiktoken (der Byte-Pair-Kodierung von OpenAI), daher ist er exakt, sofort, kostenlos und privat.
Was ist ein Token?
Ein Token ist die Einheit, die OpenAI-Modelle lesen und nach der sie abgerechnet werden. Es ist meist ein kurzer Wortabschnitt — manchmal ein ganzes kurzes Wort, manchmal ein paar Zeichen, manchmal nur ein Leerzeichen plus der Wortanfang. Eine grobe Faustregel für Englisch lautet 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter, aber der einzige genaue Weg, es zu wissen, ist, den echten Encoder auszuführen — genau das tut dieses Tool.
Welche Kodierung verwendet mein Modell?
OpenAI-Modelle teilen sich eine kleine Anzahl von Kodierungen. Wählen Sie diejenige, die zu Ihrem Modell passt:
| Kodierung | Modelle | Typische Verwendung |
|---|---|---|
o200k_base | GPT-4o, GPT-4o mini, GPT-4.1, o1 / o3 / o4 (und neuer) | Aktuelle Chat- und Reasoning-Modelle; der neueste, effizienteste Tokenizer |
cl100k_base | GPT-4, GPT-4 Turbo, GPT-3.5 Turbo, text-embedding-3, text-embedding-ada-002 | Chat-Modelle der Vorgängergeneration und die aktuellen Embedding-Modelle |
Wenn Sie unsicher sind, verwenden Sie o200k_base — es treibt die Modelle an, die die meisten Menschen heute nutzen (GPT-4o und GPT-4.1).
So zählen Sie Ihre Tokens
- Fügen Sie Ihren Text in das Feld ein oder tippen Sie ihn.
- Wählen Sie die Modellfamilie (
o200k_basefür GPT-4o / GPT-4.1 / o-Serie,cl100k_basefür GPT-4 / GPT-3.5 Turbo). - Lesen Sie oben die Token-Anzahl ab, zusammen mit Zeichen, Wörtern und Zeichen pro Token.
- Betrachten Sie die farbigen Chips darunter, um genau zu sehen, wie der Text in Tokens aufgeteilt wird; aktivieren Sie Token-IDs anzeigen, um die rohe Ganzzahl-ID jedes Tokens zu sehen.
- Klicken Sie auf Anzahl kopieren, um nur die Zahl zu kopieren, oder auf Token-IDs kopieren, um die vollständige ID-Liste zu kopieren.
Beispiel: Eingabe → Ausgabe
Eingabe:
Tokenization is fun!
Mit o200k_base wird dies zu 5 Tokens kodiert: Token, ization, is, fun, !. Beachten Sie, dass sich "Tokenization" in zwei Tokens aufteilt und dass das führende Leerzeichen Teil der Tokens is und fun ist — deshalb stimmen Token-Anzahlen nicht mit Wort-Anzahlen überein.
Warum Tokens zählen?
- Kosten: OpenAI rechnet pro Token ab, daher ist die Token-Anzahl Ihr eigentlicher Kostentreiber — weitaus genauer als das Zählen von Zeichen.
- Kontextgrenzen: Jedes Modell hat ein maximales Kontextfenster, gemessen in Tokens. Vorheriges Zählen zeigt Ihnen, ob ein Prompt plus die erwartete Antwort hineinpassen.
- Prompt Engineering: Einen Prompt von 1.200 auf 800 Tokens zu kürzen, ist ein messbarer Gewinn, den Sie beim Bearbeiten live sehen können.
Ist es exakt und privat?
Ja zu beidem. Das Tool verwendet die echten tiktoken-Kodierungen von OpenAI (o200k_base und cl100k_base) über die Open-Source-Bibliothek gpt-tokenizer — keine "durch vier teilen"-Schätzung — sodass die Anzahl der API entspricht. Der Tokenizer-Code wird einmalig von einer öffentlichen CDN geladen und läuft dann auf Ihrem Gerät; der Text, den Sie einfügen, wird niemals hochgeladen, was ihn sicher für private Prompts und vertrauliche Daten macht.
Eine kleine Anmerkung zur farbigen Ansicht: Manche Tokens sind Teil-Byte-Sequenzen eines Multibyte-Zeichens (häufig bei Emojis und japanischen oder anderen nicht-lateinischen Schriften). Für sich allein zeigt ein solches Fragment ein �-Ersatzzeichen, aber die benachbarten Tokens rekonstruieren dennoch den korrekten Text, und die Anzahl bleibt exakt.


