音声を文字起こしする君

音声ツール

音声ファイルをアップロードすると、テキスト・タイムスタンプ・字幕(SRT/VTT)が手に入ります。端末内の Whisper AI モデルがブラウザ内で文字起こしするので、音声がアップロードされることはありません。

ブラウザ内で音声を文字起こしする

このツールは、音声ファイルをテキストに変換します。プレーンテキスト・タイムスタンプ付き・そのまま 使える字幕( SRT / VTT )を、 OpenAI の Whisper モデルを端末内で実行して生成します。 MP3・ WAV ・ M4A ・ OGG ・ FLAC ・ WebM を読み込ませるだけで、何もアップロードせずにテキストが得られます。音声は ブラウザから外に出ず、 CDN からダウンロードされるのは AI モデル(初回のみ)だけで、以降はすべて ローカルで動作します。

仕組み

このツールは、オープンソースの音声認識モデル( Whisper 〔 OpenAI 〕または軽量な Moonshine 〔 Useful Sensors 〕。いずれも MIT ライセンス)を Transformers.js 経由でブラウザ内で実行します。処理は Web Worker 内で行われるため、ページがフリーズしません。ファイルはデコードされて 16kHz モノラルに 変換され、30 秒ごとのチャンクに分割して順に文字起こしされます。言語と品質の要件に合わせてモデルを 選べます:

モデル言語初回 DL字幕向いている用途
高速(whisper-tiny.en英語専用約120MB対応英語の下書き・低スペック端末
バランス(whisper-base多言語・日本語対応約200MB対応日常の既定モデル
高精度(whisper-large-v3-turbo多言語・日本語対応約760MB対応最高品質・ WebGPU 推奨
超軽量(moonshine-tiny英語専用約75MB非対応短い英語音声・最速・テキストのみ
軽量(moonshine-base英語専用約155MB非対応短い英語音声・ tiny より少し高精度

Moonshine( Useful Sensors ・ MIT )2 モデルは、端末内の英語音声向けに作られた超軽量オプションです。 返すのはプレーンテキストのみ(タイムスタンプなし= SRT/VTT 不可)で、長い録音より短いクリップ向けです。 日本語や、字幕・長尺音声が必要なときは Whisper モデルを使ってください。

モデルはローカルで実行されるため:

  • 音声があなたのパソコンから外に出ることはありません。サーバーには何も送信されません。
  • 初回ダウンロード後はモデルがキャッシュされ、オフラインでも動作します。
  • WebGPU 対応ブラウザ(最近の Chrome ・ Edge )は CPU ( WebAssembly )フォールバックよりはるかに高速です。

手順

  1. アップロード領域に音声ファイルをドロップ(またはクリックして選択)します。
  2. モデルを選びます。多言語の既定は「バランス」、日本語の品質重視は「高精度」、英語の速さ重視は 「高速」がおすすめです。
  3. 多言語モデルの場合は言語を選びます(「自動判定」のままでも可)。
  4. 文字起こしするをクリックします。各モデルの初回実行時はブラウザがモデルをダウンロードし、進捗 (%)が表示されます。
  5. 完了したら、テキストタイムスタンプSRTVTT を切り替えます。
  6. 必要な形式をコピーまたはダウンロードします。

例: 10 分のインタビュー録音(interview.m4a)をアップロード → interview.srt をダウンロード すれば、動画編集ソフトにそのまま読み込める字幕ファイルになります。

出力形式

形式内容向いている用途
テキストタイミングなしのプレーン文字起こしメモ・記事・コピペ
タイムスタンプセグメントごとの [開始 → 終了] テキスト流し読み・議事録・引用
SRT連番付き字幕キュー(ミリ秒区切りは ,動画編集ソフト・多くのプレーヤー
VTTWebVTT キュー(ミリ秒区切りは .HTML5 <track>・ Web 動画

サーバー型ツールとの使い分け

状況最適な選択
機密・非公開の録音本ツール(音声はブラウザから出ない)
アカウント不要・アップロードしたくない本ツール(完全クライアント側・無料)
動画の字幕づくり本ツール( SRT / VTT を直接書き出し)
数百時間・自動パイプラインサーバー/ API 型(1 ブラウザを超えるバッチ処理)

きれいに文字起こしするコツ

  • 明瞭な発話と少ないノイズが最も高精度です。
  • 日本語や多言語混在の音声は、高精度モデルを選び、言語を明示するのがおすすめです。
  • 初回が遅いのは一度きりのモデルダウンロードです。次のファイルからは高速になります。
  • 長いファイルは 30 秒ごとのチャンクで処理されるため時間がかかります。 WebGPU 対応ブラウザが有利です。

すべてブラウザ内で処理されます。音声がアップロードされることはありません。それがこのツールの要点です。

お問い合わせはこちら

お世話になっております

当社へご興味をもっていただき、ありがとうございます。1営業日以内に、担当者よりご連絡を差し上げます。

こんなご相談にお答えしています

  • ターニントAIの導入・活用の相談
  • ターニントAIのデモ・トライアル
  • AI活用全般のご相談(自社プロダクト以外も歓迎)
  • アライアンス・パートナーシップ
  • その他のご質問

オンラインで相談する

カレンダーから直接ミーティングを予約することも可能です。

テンプレートを選ぶか、自由にご記入ください。