どのエンコーディングを選べばよいですか？

GPT-4o・GPT-4o mini・GPT-4.1・o1/o3/o4 系の推論モデルには o200k_base を、GPT-4・GPT-4 Turbo・GPT-3.5 Turbo・text-embedding-3 / ada-002 の埋め込みモデルには cl100k_base を選んでください。

入力したテキストはサーバーにアップロードされますか？

いいえ。トークナイザーは公開CDNから一度だけ読み込まれ、あとはすべてブラウザ内で実行されます。貼り付けたテキストがアップロードされたりAPIに送信されることはないため、プロンプトや機密データにも安全に使えます。

トークンにときどき � の文字が表示されるのはなぜ？

一部のトークンはマルチバイト文字（絵文字や非ラテン文字でよく起こります）の一部のバイト列です。単独で表示するとその断片は置換文字にデコードされますが、前後のトークンと合わさると正しいテキストになり、トークン数は正確なままです。

1単語・1ページは何トークンですか？

英語ではおおよそ 1トークン ≈ 0.75単語（約4文字）です。英語1ページは400〜600トークン程度になることが多いです。日本語など非ラテン文字は1文字あたりのトークンが多くなりがちです。ライブ表示の「文字/トークン」で自分のテキストの目安を確認できます。

無料で使える？

はい、完全に無料で即座に使えます。会員登録やインストールは不要です。

[無料] ChatGPT トークナイザー | OpenAIのトークン数を正確に数える

Q: トークン数は正確ですか？

はい。OpenAI公式の tiktoken バイトペア符号化（o200k_base・cl100k_base）をオープンソースの gpt-tokenizer ライブラリ経由で使うため、APIの課金と一致します。「文字数÷4」のような概算ではありません。

ChatGPT トークナイザーは、テキストが OpenAI モデルで使う「トークン数」を正確に数えます。テキストを貼り付けると、 API で課金されるのと同じ正確なトークン数を返し、さらに色分けされたトークン単位の表示で、モデルが単語をどこで区切るのかを確認できます。 OpenAI 公式のバイトペア符号化である tiktoken を使ってすべてブラウザ内で動作するため、正確・即時・無料・安全です。

トークンとは？

トークンは、 OpenAI モデルが読み取り、課金の単位となる最小のまとまりです。多くは単語の一部で、短い単語1つまるごとのこともあれば、数文字だけ、あるいは「スペース＋単語の先頭」のこともあります。英語のおおまかな目安は 1トークン ≈ 4文字 ≈ 0.75単語 ですが、正確に知る唯一の方法は本物のエンコーダーを実行することです。本ツールがまさにそれを行います。

自分のモデルはどのエンコーディング？

OpenAI モデルは少数のエンコーディングを共有しています。使うモデルに合わせて選んでください。

エンコーディング	対象モデル	主な用途
`o200k_base`	GPT-4o 、 GPT-4o mini 、 GPT-4.1、 o1 / o3 / o4（以降の新モデル）	現行のチャット・推論モデル。最新で最も効率的なトークナイザー
`cl100k_base`	GPT-4、 GPT-4 Turbo 、 GPT-3.5 Turbo 、 text-embedding-3、 text-embedding-ada-002	前世代のチャットモデルと現行の埋め込みモデル

迷ったら o200k_base を選んでください。今日多くの人が使うモデル（ GPT-4o ・ GPT-4.1）で使われています。

トークン数の数え方

テキストをボックスに貼り付け・入力します。
モデル系統を選びます（ GPT-4o / GPT-4.1 / o 系なら o200k_base、 GPT-4 / GPT-3.5 Turbo なら cl100k_base）。
上部の トークン数 を、文字数・単語数・文字/トークンとあわせて確認します。
下の色分けチップで、テキストがどのようにトークンへ分割されるかを確認します。トークン ID を表示 を切り替えると、各トークンの整数 ID が見られます。
トークン数をコピー で数値だけを、トークン ID をコピー で ID のリスト全体をコピーできます。

例：入力 → 出力

入力:

Tokenization is fun!

o200k_base では 5トークン になります: Token、ization、 is、 fun、!。"Tokenization" が2つのトークンに分かれ、先頭のスペースが is や fun のトークンに含まれている点に注目してください。これが、トークン数と単語数が一致しない理由です。

なぜトークンを数えるのか？

コスト: OpenAI はトークン単位で課金するため、トークン数が本当のコスト要因です。文字数を数えるよりずっと正確です。
コンテキスト上限: どのモデルにもトークン単位の最大コンテキスト長があります。先に数えておけば、プロンプトと想定される応答が収まるか分かります。
プロンプト設計: プロンプトを1,200から800トークンへ削るのは、編集しながらライブで確認できる測定可能な改善です。

正確でプライベート？

どちらもはいです。本ツールは OpenAI 公式の tiktoken エンコーディング（o200k_base・cl100k_base）を、オープンソースの gpt-tokenizer ライブラリ経由で使います。「4で割る」ような概算ではないため、 API と一致します。トークナイザーのコードは公開 CDN から一度だけ読み込まれ、あとはお使いの端末上で動作します。貼り付けたテキストがアップロードされることはないため、機密のプロンプトや秘密のデータにも安全に使えます。

色分け表示についての補足: 一部のトークンはマルチバイト文字（絵文字や日本語など非ラテン文字でよく起こります）の一部のバイト列です。単独で表示すると � の置換文字になりますが、前後のトークンと合わされば正しいテキストに戻り、トークン数は正確なままです。

運営者情報

ターニントAIツールは、AIエージェントプラットフォーム「Turnint AI」を提供する Unbounded Pioneering株式会社が開発・運営する無料ツール群です。

鈴木凌介創業者・代表取締役

AIエージェントプラットフォーム「Turnint AI」を提供する Unbounded Pioneering株式会社の創業者・代表取締役。機械学習・AIプロダクト開発のエキスパート。大学在学中は研究室にて機械学習の研究に従事。その後、株式会社プレイド・楽天・リクルートにおいて、ソフトウェアエンジニアとして大規模プロダクトの設計・開発を手がけるとともに、新規事業開発を推進。現在は生成AI・AIエージェント領域を専門とし、エンジニアリングと事業開発の両面から一貫してプロダクト開発に携わる。ウェブ技術領域における複数の特許を発明。

特許発明者（特許第6887648号・特許第7480958号）・Turnint AI関連技術で特許出願中

LinkedIn X 私たちについて →

ChatGPT トークナイザー

トークンとは？

自分のモデルはどのエンコーディング？

トークン数の数え方

例：入力 → 出力

なぜトークンを数えるのか？

正確でプライベート？

よくある質問

運営者情報

お問い合わせはこちら

お世話になっております

こんなご相談にお答えしています

オンラインで相談する