O Tokenizer ChatGPT conta exatamente quantos tokens o seu texto usa nos modelos da OpenAI. Cole qualquer texto e ele retorna a contagem precisa de tokens — o mesmo número que a API cobra de você — mais uma visão token a token colorida para que você veja onde o modelo divide as suas palavras. Roda inteiramente no seu navegador com tiktoken (a codificação byte-pair da própria OpenAI), então é exato, instantâneo, gratuito e privado.
O que é um token?
Um token é a unidade que os modelos da OpenAI leem e pela qual são cobrados. Costuma ser um pequeno pedaço de palavra — às vezes uma palavra curta inteira, às vezes alguns caracteres, às vezes apenas um espaço mais o início de uma palavra. Uma regra prática aproximada para o inglês é 1 token ≈ 4 caracteres ≈ 0,75 palavra, mas a única forma precisa de saber é executar o codificador real, que é o que esta ferramenta faz.
Qual codificação o meu modelo usa?
Os modelos da OpenAI compartilham um número pequeno de codificações. Escolha a que corresponde ao seu modelo:
| Codificação | Modelos | Uso típico |
|---|---|---|
o200k_base | GPT-4o, GPT-4o mini, GPT-4.1, o1 / o3 / o4 (e mais recentes) | Modelos de chat e raciocínio atuais; o tokenizer mais novo e eficiente |
cl100k_base | GPT-4, GPT-4 Turbo, GPT-3.5 Turbo, text-embedding-3, text-embedding-ada-002 | Modelos de chat da geração anterior e os modelos de embedding atuais |
Se estiver na dúvida, use o200k_base — ele alimenta os modelos que a maioria das pessoas usa hoje (GPT-4o e GPT-4.1).
Como contar os seus tokens
- Cole ou digite o seu texto na caixa.
- Escolha a família de modelos (
o200k_basepara GPT-4o / GPT-4.1 / série o,cl100k_basepara GPT-4 / GPT-3.5 Turbo). - Leia a contagem de tokens no topo, junto com caracteres, palavras e caracteres por token.
- Observe os chips coloridos abaixo para ver exatamente como o texto é dividido em tokens; ative Mostrar IDs de token para ver o id inteiro bruto de cada token.
- Clique em Copiar contagem para copiar apenas o número, ou em Copiar IDs de token para copiar a lista completa de ids.
Exemplo: entrada → saída
Entrada:
Tokenization is fun!
Com o200k_base isso é codificado em 5 tokens: Token, ization, is, fun, !. Observe que "Tokenization" se divide em dois tokens e que o espaço inicial faz parte dos tokens is e fun — é por isso que as contagens de tokens não coincidem com as contagens de palavras.
Por que contar tokens?
- Custo: a OpenAI cobra por token, então a contagem de tokens é o seu verdadeiro fator de custo — muito mais precisa do que contar caracteres.
- Limites de contexto: todo modelo tem uma janela de contexto máxima medida em tokens. Contar primeiro diz se um prompt mais a resposta esperada vão caber.
- Engenharia de prompt: reduzir um prompt de 1.200 para 800 tokens é um ganho mensurável que você vê ao vivo enquanto edita.
É exato e privado?
Sim para ambos. A ferramenta usa as codificações tiktoken reais da OpenAI (o200k_base e cl100k_base) por meio da biblioteca open source gpt-tokenizer — não uma estimativa de "dividir por quatro" — então a contagem corresponde à API. O código do tokenizer é carregado uma única vez de uma CDN pública e depois roda no seu dispositivo; o texto que você cola nunca é enviado, o que o torna seguro para prompts privados e dados confidenciais.
Uma pequena observação sobre a visão colorida: alguns tokens são sequências de bytes parciais de um caractere multibyte (comum com emoji e escritas japonesas ou outras não latinas). Sozinho, esse fragmento mostra um caractere de substituição �, mas os tokens vizinhos ainda reconstroem o texto correto e a contagem permanece exata.


