Il Tokenizer ChatGPT conta esattamente quanti token il tuo testo usa per i modelli OpenAI. Incolla un testo qualsiasi e restituisce il conteggio preciso dei token — lo stesso numero che l'API ti addebita — più una vista token per token a colori così puoi vedere dove il modello divide le tue parole. Funziona interamente nel tuo browser con tiktoken (la codifica byte-pair di OpenAI), quindi è esatto, istantaneo, gratuito e privato.
Cos'è un token?
Un token è l'unità che i modelli OpenAI leggono e su cui vengono fatturati. Di solito è un breve frammento di parola — a volte un'intera parola corta, a volte pochi caratteri, a volte solo uno spazio più l'inizio di una parola. Una regola empirica approssimativa per l'inglese è 1 token ≈ 4 caratteri ≈ 0,75 parole, ma l'unico modo accurato per saperlo è eseguire il vero encoder, che è ciò che fa questo strumento.
Quale codifica usa il mio modello?
I modelli OpenAI condividono un numero ristretto di codifiche. Scegli quella che corrisponde al tuo modello:
| Codifica | Modelli | Uso tipico |
|---|---|---|
o200k_base | GPT-4o, GPT-4o mini, GPT-4.1, o1 / o3 / o4 (e successivi) | Modelli chat e di ragionamento attuali; il tokenizer più recente ed efficiente |
cl100k_base | GPT-4, GPT-4 Turbo, GPT-3.5 Turbo, text-embedding-3, text-embedding-ada-002 | Modelli chat della generazione precedente e i modelli di embedding attuali |
Se non sei sicuro, usa o200k_base: alimenta i modelli che la maggior parte delle persone usa oggi (GPT-4o e GPT-4.1).
Come contare i tuoi token
- Incolla o digita il tuo testo nella casella.
- Scegli la famiglia di modelli (
o200k_baseper GPT-4o / GPT-4.1 / serie o,cl100k_baseper GPT-4 / GPT-3.5 Turbo). - Leggi il conteggio dei token in alto, insieme a caratteri, parole e caratteri per token.
- Osserva i chip colorati qui sotto per vedere esattamente come il testo viene diviso in token; attiva Mostra ID token per vedere l'id intero grezzo di ogni token.
- Fai clic su Copia conteggio per copiare solo il numero, oppure su Copia ID token per copiare l'intera lista di id.
Esempio: input → output
Input:
Tokenization is fun!
Con o200k_base questo si codifica in 5 token: Token, ization, is, fun, !. Nota che "Tokenization" si divide in due token e che lo spazio iniziale fa parte dei token is e fun — è per questo che i conteggi dei token non coincidono con i conteggi delle parole.
Perché contare i token?
- Costo: OpenAI fattura per token, quindi il conteggio dei token è il tuo vero fattore di costo — molto più accurato del conteggio dei caratteri.
- Limiti di contesto: Ogni modello ha una finestra di contesto massima misurata in token. Contare prima ti dice se un prompt più la risposta prevista rientreranno.
- Prompt engineering: Ridurre un prompt da 1.200 a 800 token è un miglioramento misurabile che puoi vedere in tempo reale mentre modifichi.
È esatto e privato?
Sì a entrambe le cose. Lo strumento usa le vere codifiche tiktoken di OpenAI (o200k_base e cl100k_base) tramite la libreria open source gpt-tokenizer — non una stima "dividi per quattro" — quindi il conteggio corrisponde all'API. Il codice del tokenizer viene caricato una sola volta da una CDN pubblica e poi funziona sul tuo dispositivo; il testo che incolli non viene mai caricato, il che lo rende sicuro per prompt privati e dati riservati.
Una piccola nota sulla vista a colori: alcuni token sono sequenze di byte parziali di un carattere multibyte (comune con emoji e scritture giapponesi o altre non latine). Da solo, un tale frammento mostra un carattere sostitutivo �, ma i token vicini ricostruiscono comunque il testo corretto e il conteggio resta esatto.


