音声はサーバーにアップロードされますか？

いいえ。文字起こしはすべてブラウザ内の Whisper AI モデルで実行され、音声があなたのパソコンから外に出ることはありません。インターネットからダウンロードされるのは AI モデル本体だけで、これも初回に CDN から一度取得してキャッシュするだけです。

どんな音声形式に対応していますか？

ブラウザがデコードできる形式なら対応します。MP3・WAV・M4A/AAC・OGG・FLAC・WebM などが利用できます。ファイルはブラウザ内でデコードされ、モデルに渡す前に 16kHz モノラルへ変換されます。

どのモデルを選べばいい？

既定は「バランス（Whisper base・多言語）」で、日本語を含む多言語に対応します。「高速（Whisper tiny.en）」は最小・最速ですが英語専用です。「高精度（Whisper large-v3-turbo）」は日本語を含め最も高品質ですが初回ダウンロードが大きいため、WebGPU 対応ブラウザでの利用がおすすめです。さらに、短い英語音声向けの超軽量な Moonshine（MIT）2 モデルもあります。最小・最速ですがプレーンテキストのみ（タイムスタンプ/字幕は非対応）です。日本語や字幕が必要なときは Whisper モデルを選んでください。

字幕（SRT / VTT）で出力できますか？

はい。文字起こし後に、プレーンテキスト・タイムスタンプ付き・SRT・WebVTT を切り替えて、いずれもコピーやダウンロードができます。SRT と VTT はそのまま動画編集ソフトやプレーヤーの字幕トラックとして読み込めます。

初回だけ遅いのはなぜですか？

各モデルを初めて使うとき、ブラウザがその重み（高速=約120MB、バランス=約200MB、高精度=約760MB）をダウンロードしてキャッシュします。以降は高速になり、オフラインでも動作します。長い音声は 30 秒ごとのチャンクで処理されるため、長尺ほど時間がかかります。WebGPU 対応ブラウザ（最近の Chrome・Edge）は CPU フォールバックよりはるかに高速です。

無料ですか？結果を商用利用できますか？

はい。本ツールは無料で、処理はローカルで完結します。Whisper は OpenAI により MIT ライセンスで、Transformers.js は Apache-2.0 ライセンスで公開されており、いずれも商用利用が許可されているため、文字起こし結果はあなたのものとして利用できます。

精度はどのくらいですか？

精度はモデルと音声の状態によります。明瞭な発話はよく認識されますが、強いノイズ・話者の重なり・強い訛りがあると精度は下がります。重要な日本語音声では高精度モデルを選び、結果を確認することをおすすめします。

[無料] 音声を文字起こしする君 | ターニントAIツール

ブラウザ内で音声を文字起こしする

このツールは、音声ファイルをテキストに変換します。プレーンテキスト・タイムスタンプ付き・そのまま使える字幕（ SRT / VTT ）を、 OpenAI の Whisper モデルを端末内で実行して生成します。 MP3・ WAV ・ M4A ・ OGG ・ FLAC ・ WebM を読み込ませるだけで、何もアップロードせずにテキストが得られます。音声はブラウザから外に出ず、 CDN からダウンロードされるのは AI モデル（初回のみ）だけで、以降はすべてローカルで動作します。

仕組み

このツールは、オープンソースの音声認識モデル（ Whisper 〔 OpenAI 〕または軽量な Moonshine 〔 Useful Sensors 〕。いずれも MIT ライセンス）を Transformers.js 経由でブラウザ内で実行します。処理は Web Worker 内で行われるため、ページがフリーズしません。ファイルはデコードされて 16kHz モノラルに変換され、30 秒ごとのチャンクに分割して順に文字起こしされます。言語と品質の要件に合わせてモデルを選べます:

モデル	言語	初回 DL	字幕	向いている用途
高速（`whisper-tiny.en`）	英語専用	約120MB	対応	英語の下書き・低スペック端末
バランス（`whisper-base`）	多言語・日本語対応	約200MB	対応	日常の既定モデル
高精度（`whisper-large-v3-turbo`）	多言語・日本語対応	約760MB	対応	最高品質・ WebGPU 推奨
超軽量（`moonshine-tiny`）	英語専用	約75MB	非対応	短い英語音声・最速・テキストのみ
軽量（`moonshine-base`）	英語専用	約155MB	非対応	短い英語音声・ tiny より少し高精度

Moonshine（ Useful Sensors ・ MIT ）2 モデルは、端末内の英語音声向けに作られた超軽量オプションです。返すのはプレーンテキストのみ（タイムスタンプなし＝ SRT/VTT 不可）で、長い録音より短いクリップ向けです。日本語や、字幕・長尺音声が必要なときは Whisper モデルを使ってください。

モデルはローカルで実行されるため:

音声があなたのパソコンから外に出ることはありません。サーバーには何も送信されません。
初回ダウンロード後はモデルがキャッシュされ、オフラインでも動作します。
WebGPU 対応ブラウザ（最近の Chrome ・ Edge ）は CPU （ WebAssembly ）フォールバックよりはるかに高速です。

手順

アップロード領域に音声ファイルをドロップ（またはクリックして選択）します。
モデルを選びます。多言語の既定は「バランス」、日本語の品質重視は「高精度」、英語の速さ重視は「高速」がおすすめです。
多言語モデルの場合は言語を選びます（「自動判定」のままでも可）。
文字起こしするをクリックします。各モデルの初回実行時はブラウザがモデルをダウンロードし、進捗（％）が表示されます。
完了したら、テキスト・タイムスタンプ・SRT・VTT を切り替えます。
必要な形式をコピーまたはダウンロードします。

例: 10 分のインタビュー録音（interview.m4a）をアップロード → interview.srt をダウンロードすれば、動画編集ソフトにそのまま読み込める字幕ファイルになります。

出力形式

形式	内容	向いている用途
テキスト	タイミングなしのプレーン文字起こし	メモ・記事・コピペ
タイムスタンプ	セグメントごとの `[開始 → 終了] テキスト`	流し読み・議事録・引用
SRT	連番付き字幕キュー（ミリ秒区切りは `,`）	動画編集ソフト・多くのプレーヤー
VTT	WebVTT キュー（ミリ秒区切りは `.`）	HTML5 `<track>`・ Web 動画

サーバー型ツールとの使い分け

状況	最適な選択
機密・非公開の録音	本ツール（音声はブラウザから出ない）
アカウント不要・アップロードしたくない	本ツール（完全クライアント側・無料）
動画の字幕づくり	本ツール（ SRT / VTT を直接書き出し）
数百時間・自動パイプライン	サーバー／ API 型（1 ブラウザを超えるバッチ処理）

きれいに文字起こしするコツ

明瞭な発話と少ないノイズが最も高精度です。
日本語や多言語混在の音声は、高精度モデルを選び、言語を明示するのがおすすめです。
初回が遅いのは一度きりのモデルダウンロードです。次のファイルからは高速になります。
長いファイルは 30 秒ごとのチャンクで処理されるため時間がかかります。 WebGPU 対応ブラウザが有利です。

すべてブラウザ内で処理されます。音声がアップロードされることはありません。それがこのツールの要点です。

音声を文字起こしする君

ブラウザ内で音声を文字起こしする

仕組み

手順

出力形式

サーバー型ツールとの使い分け

きれいに文字起こしするコツ

よくある質問

お問い合わせはこちら

お世話になっております

こんなご相談にお答えしています

オンラインで相談する