ChatGPT トークナイザーは、テキストが OpenAI モデルで使う「トークン数」を正確に数えます。テキストを貼り付けると、 API で課金されるのと同じ正確なトークン数を返し、さらに色分けされたトークン単位の表示で、モデルが単語をどこで区切るのかを確認できます。 OpenAI 公式のバイトペア符号化である tiktoken を使ってすべてブラウザ内で動作するため、正確・即時・無料・安全です。
トークンとは?
トークンは、 OpenAI モデルが読み取り、課金の単位となる最小のまとまりです。多くは単語の一部で、短い単語1つまるごとのこともあれば、数文字だけ、あるいは「スペース+単語の先頭」のこともあります。英語のおおまかな目安は 1トークン ≈ 4文字 ≈ 0.75単語 ですが、正確に知る唯一の方法は本物のエンコーダーを実行することです。本ツールがまさにそれを行います。
自分のモデルはどのエンコーディング?
OpenAI モデルは少数のエンコーディングを共有しています。使うモデルに合わせて選んでください。
| エンコーディング | 対象モデル | 主な用途 |
|---|---|---|
o200k_base | GPT-4o 、 GPT-4o mini 、 GPT-4.1、 o1 / o3 / o4(以降の新モデル) | 現行のチャット・推論モデル。最新で最も効率的なトークナイザー |
cl100k_base | GPT-4、 GPT-4 Turbo 、 GPT-3.5 Turbo 、 text-embedding-3、 text-embedding-ada-002 | 前世代のチャットモデルと現行の埋め込みモデル |
迷ったら o200k_base を選んでください。今日多くの人が使うモデル( GPT-4o ・ GPT-4.1)で使われています。
トークン数の数え方
- テキストをボックスに貼り付け・入力します。
- モデル系統を選びます( GPT-4o / GPT-4.1 / o 系なら
o200k_base、 GPT-4 / GPT-3.5 Turbo ならcl100k_base)。 - 上部の トークン数 を、文字数・単語数・文字/トークンとあわせて確認します。
- 下の色分けチップで、テキストがどのようにトークンへ分割されるかを確認します。トークン ID を表示 を切り替えると、各トークンの整数 ID が見られます。
- トークン数をコピー で数値だけを、トークン ID をコピー で ID のリスト全体をコピーできます。
例:入力 → 出力
入力:
Tokenization is fun!
o200k_base では 5トークン になります: Token、ization、 is、 fun、!。"Tokenization" が2つのトークンに分かれ、先頭のスペースが is や fun のトークンに含まれている点に注目してください。これが、トークン数と単語数が一致しない理由です。
なぜトークンを数えるのか?
- コスト: OpenAI はトークン単位で課金するため、トークン数が本当のコスト要因です。文字数を数えるよりずっと正確です。
- コンテキスト上限: どのモデルにもトークン単位の最大コンテキスト長があります。先に数えておけば、プロンプトと想定される応答が収まるか分かります。
- プロンプト設計: プロンプトを1,200から800トークンへ削るのは、編集しながらライブで確認できる測定可能な改善です。
正確でプライベート?
どちらもはいです。本ツールは OpenAI 公式の tiktoken エンコーディング(o200k_base・cl100k_base)を、オープンソースの gpt-tokenizer ライブラリ経由で使います。「4で割る」ような概算ではないため、 API と一致します。トークナイザーのコードは公開 CDN から一度だけ読み込まれ、あとはお使いの端末上で動作します。貼り付けたテキストがアップロードされることはないため、機密のプロンプトや秘密のデータにも安全に使えます。
色分け表示についての補足: 一部のトークンはマルチバイト文字(絵文字や日本語など非ラテン文字でよく起こります)の一部のバイト列です。単独で表示すると � の置換文字になりますが、前後のトークンと合わされば正しいテキストに戻り、トークン数は正確なままです。


