ブラウザ内で音声を文字起こしする
このツールは、音声ファイルをテキストに変換します。プレーンテキスト・タイムスタンプ付き・そのまま 使える字幕( SRT / VTT )を、 OpenAI の Whisper モデルを端末内で実行して生成します。 MP3・ WAV ・ M4A ・ OGG ・ FLAC ・ WebM を読み込ませるだけで、何もアップロードせずにテキストが得られます。音声は ブラウザから外に出ず、 CDN からダウンロードされるのは AI モデル(初回のみ)だけで、以降はすべて ローカルで動作します。
仕組み
このツールは、オープンソースの音声認識モデル( Whisper 〔 OpenAI 〕または軽量な Moonshine 〔 Useful Sensors 〕。いずれも MIT ライセンス)を Transformers.js 経由でブラウザ内で実行します。処理は Web Worker 内で行われるため、ページがフリーズしません。ファイルはデコードされて 16kHz モノラルに 変換され、30 秒ごとのチャンクに分割して順に文字起こしされます。言語と品質の要件に合わせてモデルを 選べます:
| モデル | 言語 | 初回 DL | 字幕 | 向いている用途 |
|---|---|---|---|---|
高速(whisper-tiny.en) | 英語専用 | 約120MB | 対応 | 英語の下書き・低スペック端末 |
バランス(whisper-base) | 多言語・日本語対応 | 約200MB | 対応 | 日常の既定モデル |
高精度(whisper-large-v3-turbo) | 多言語・日本語対応 | 約760MB | 対応 | 最高品質・ WebGPU 推奨 |
超軽量(moonshine-tiny) | 英語専用 | 約75MB | 非対応 | 短い英語音声・最速・テキストのみ |
軽量(moonshine-base) | 英語専用 | 約155MB | 非対応 | 短い英語音声・ tiny より少し高精度 |
Moonshine( Useful Sensors ・ MIT )2 モデルは、端末内の英語音声向けに作られた超軽量オプションです。 返すのはプレーンテキストのみ(タイムスタンプなし= SRT/VTT 不可)で、長い録音より短いクリップ向けです。 日本語や、字幕・長尺音声が必要なときは Whisper モデルを使ってください。
モデルはローカルで実行されるため:
- 音声があなたのパソコンから外に出ることはありません。サーバーには何も送信されません。
- 初回ダウンロード後はモデルがキャッシュされ、オフラインでも動作します。
- WebGPU 対応ブラウザ(最近の Chrome ・ Edge )は CPU ( WebAssembly )フォールバックよりはるかに高速です。
手順
- アップロード領域に音声ファイルをドロップ(またはクリックして選択)します。
- モデルを選びます。多言語の既定は「バランス」、日本語の品質重視は「高精度」、英語の速さ重視は 「高速」がおすすめです。
- 多言語モデルの場合は言語を選びます(「自動判定」のままでも可)。
- 文字起こしするをクリックします。各モデルの初回実行時はブラウザがモデルをダウンロードし、進捗 (%)が表示されます。
- 完了したら、テキスト・タイムスタンプ・SRT・VTT を切り替えます。
- 必要な形式をコピーまたはダウンロードします。
例: 10 分のインタビュー録音(interview.m4a)をアップロード → interview.srt をダウンロード すれば、動画編集ソフトにそのまま読み込める字幕ファイルになります。
出力形式
| 形式 | 内容 | 向いている用途 |
|---|---|---|
| テキスト | タイミングなしのプレーン文字起こし | メモ・記事・コピペ |
| タイムスタンプ | セグメントごとの [開始 → 終了] テキスト | 流し読み・議事録・引用 |
| SRT | 連番付き字幕キュー(ミリ秒区切りは ,) | 動画編集ソフト・多くのプレーヤー |
| VTT | WebVTT キュー(ミリ秒区切りは .) | HTML5 <track>・ Web 動画 |
サーバー型ツールとの使い分け
| 状況 | 最適な選択 |
|---|---|
| 機密・非公開の録音 | 本ツール(音声はブラウザから出ない) |
| アカウント不要・アップロードしたくない | 本ツール(完全クライアント側・無料) |
| 動画の字幕づくり | 本ツール( SRT / VTT を直接書き出し) |
| 数百時間・自動パイプライン | サーバー/ API 型(1 ブラウザを超えるバッチ処理) |
きれいに文字起こしするコツ
- 明瞭な発話と少ないノイズが最も高精度です。
- 日本語や多言語混在の音声は、高精度モデルを選び、言語を明示するのがおすすめです。
- 初回が遅いのは一度きりのモデルダウンロードです。次のファイルからは高速になります。
- 長いファイルは 30 秒ごとのチャンクで処理されるため時間がかかります。 WebGPU 対応ブラウザが有利です。
すべてブラウザ内で処理されます。音声がアップロードされることはありません。それがこのツールの要点です。
