Transkribieren Sie Audio in Text in Ihrem Browser
Dieses Tool verwandelt eine Audiodatei in Text – reines Transkript, Zeilen mit Zeitstempel oder gebrauchsfertige Untertitel (SRT / VTT) – mit OpenAIs Modell Whisper, das direkt auf Ihrem Gerät läuft. Legen Sie eine MP3-, WAV-, M4A-, OGG-, FLAC- oder WebM-Datei ab und erhalten Sie den Text zurück, ohne etwas hochzuladen. Ihr Audio verlässt nie Ihren Browser; nur das KI-Modell wird (einmal) von einer CDN heruntergeladen, danach läuft alles lokal.
So funktioniert es
Das Tool führt ein quelloffenes Spracherkennungsmodell – Whisper (OpenAI) oder das leichtgewichtige Moonshine (Useful Sensors), beide MIT-lizenziert – in Ihrem Browser über Transformers.js aus, innerhalb eines Web Workers, damit die Seite nie einfriert. Ihre Datei wird dekodiert und auf 16-kHz-Mono-Audio heruntergerechnet, in 30-Sekunden-Blöcke aufgeteilt und Block für Block transkribiert. Sie wählen das Modell, das zu Ihren Sprach- und Qualitätsanforderungen passt:
| Modell | Sprachen | Erster Download | Untertitel | Am besten für |
|---|---|---|---|---|
Schnell (whisper-tiny.en) | Nur Englisch | ~120 MB | Ja | Schnelle englische Entwürfe, leistungsschwache Geräte |
Ausgewogen (whisper-base) | Mehrsprachig, inkl. Deutsch | ~200 MB | Ja | Alltäglicher Standard |
Genau (whisper-large-v3-turbo) | Mehrsprachig, inkl. Deutsch | ~760 MB | Ja | Höchste Qualität; WebGPU empfohlen |
Ultraleicht (moonshine-tiny) | Nur Englisch | ~75 MB | Nein | Kurze englische Clips, am schnellsten, nur Text |
Leicht (moonshine-base) | Nur Englisch | ~155 MB | Nein | Kurze englische Clips, etwas genauer |
Die beiden Moonshine-Modelle (Useful Sensors, MIT) sind eine ultraleichte Option, die für englische Sprache auf dem Gerät entwickelt wurde. Sie geben nur reinen Text zurück – keine Zeitstempel, also kein SRT/VTT – und sind für kurze Clips statt langer Aufnahmen gedacht. Für andere Sprachen oder wenn Sie Untertitel oder Langform-Audio benötigen, verwenden Sie ein Whisper-Modell.
Da das Modell lokal ausgeführt wird:
- Ihr Audio verlässt nie Ihren Computer – es wird nichts an einen Server gesendet.
- Nach dem ersten Download wird das Modell zwischengespeichert und funktioniert offline.
- Browser mit WebGPU (aktuelles Chrome, Edge) laufen viel schneller als die CPU-Alternative (WebAssembly).
Schritte
- Legen Sie eine Audiodatei auf den Upload-Bereich (oder klicken Sie, um eine auszuwählen).
- Wählen Sie ein Modell – Ausgewogen ist ein guter mehrsprachiger Standard; verwenden Sie Genau für die beste Qualität oder Schnell für schnelles Englisch.
- Wählen Sie bei mehrsprachigen Modellen die Sprache (oder belassen Sie sie auf automatische Erkennung).
- Klicken Sie auf Transkribieren. Beim ersten Durchlauf jedes Modells lädt der Browser es herunter – Sie sehen einen Fortschritt in Prozent.
- Wechseln Sie nach Abschluss zwischen Text, Mit Zeitstempel, SRT und VTT.
- Kopieren oder laden Sie das benötigte Format herunter.
Beispiel: Laden Sie die Aufnahme eines 10-minütigen Interviews (interview.m4a) hoch → laden Sie interview.srt herunter, eine Untertiteldatei, die Sie direkt in einen Videoeditor laden können.
Ausgabeformate
| Format | Enthält | Am besten für |
|---|---|---|
| Text | Reines Transkript, keine Zeiten | Notizen, Artikel, Kopieren und Einfügen |
| Mit Zeitstempel | [Start → Ende] Text pro Segment | Überfliegen, Protokolle, Zitieren |
| SRT | Nummerierte Untertitel-Cues mit , als Millisekundentrenner | Videoeditoren, die meisten Player |
| VTT | WebVTT-Cues mit . als Millisekundentrenner | HTML5-<track>, Web-Video |
Wann dieses Tool statt eines Server-Tools verwenden
| Situation | Beste Wahl |
|---|---|
| Sensible oder private Aufnahmen | Dieses Tool – das Audio verlässt nie Ihren Browser |
| Kein Konto / kein Upload gewünscht | Dieses Tool – vollständig clientseitig, kostenlos |
| Untertitel für ein Video | Dieses Tool – exportiert SRT oder VTT direkt |
| Hunderte Stunden, automatisierte Pipeline | Ein Server-/API-Tool – Batch-Durchsatz über einen Browser hinaus |
Tipps für das beste Transkript
- Klare Sprache und wenig Hintergrundgeräusche werden am genauesten transkribiert.
- Wählen Sie bei anderssprachigem oder gemischtsprachigem Audio das genaue Modell und legen Sie die Sprache ausdrücklich fest.
- Wenn sich der erste Durchlauf langsam anfühlt, ist das der einmalige Modell-Download; die nächste Datei ist viel schneller.
- Lange Dateien dauern länger, weil Audio in 30-Sekunden-Blöcken verarbeitet wird – ein Browser mit WebGPU hilft hier stark.
Alles hier läuft in Ihrem Browser. Ihr Audio wird nie hochgeladen – das ist der ganze Sinn.


