Wird mein Audio auf einen Server hochgeladen?

Nein. Die Transkription läuft vollständig in Ihrem Browser mit einem Whisper-KI-Modell auf dem Gerät. Ihr Audio verlässt Ihren Computer nie. Das Einzige, was aus dem Internet heruntergeladen wird, ist das KI-Modell selbst, das einmal von einer CDN abgerufen und dann zwischengespeichert wird.

Welche Audioformate kann ich transkribieren?

Jedes Format, das Ihr Browser dekodieren kann – MP3, WAV, M4A/AAC, OGG, FLAC und WebM funktionieren alle. Die Datei wird in Ihrem Browser dekodiert und auf 16 kHz Mono heruntergerechnet, bevor sie an das Modell übergeben wird.

Welches Modell sollte ich wählen?

Ausgewogen (Whisper base, mehrsprachig) ist die Voreinstellung und beherrscht Deutsch und viele andere Sprachen. Schnell (Whisper tiny.en) ist das kleinste und schnellste, aber nur auf Englisch. Genau (Whisper large-v3-turbo) liefert die beste Qualität, einschließlich Deutsch, um den Preis eines größeren ersten Downloads – verwenden Sie es in einem Browser mit WebGPU. Es gibt außerdem zwei ultraleichte Moonshine-Modelle (MIT) für kurze englische Clips: Sie sind die kleinsten und schnellsten, geben aber nur reinen Text zurück (keine Zeitstempel oder Untertitel). Für andere Sprachen oder wenn Sie Untertitel benötigen, wählen Sie ein Whisper-Modell.

Kann es Untertitel (SRT / VTT) ausgeben?

Ja. Nach dem Transkribieren können Sie zwischen reinem Text, Zeilen mit Zeitstempel, SRT und WebVTT wechseln und jedes davon herunterladen oder kopieren. SRT und VTT sind bereit, in Videoeditoren und Player als Untertitelspuren geladen zu werden.

Warum ist der erste Durchlauf langsam?

Wenn Sie ein Modell zum ersten Mal verwenden, lädt der Browser seine Gewichte herunter (etwa 120 MB für Schnell, 200 MB für Ausgewogen, 760 MB für Genau) und speichert sie zwischen. Danach sind die Durchläufe schnell und funktionieren sogar offline. Langes Audio wird in 30-Sekunden-Blöcken verarbeitet, daher dauern längere Dateien proportional länger – ein Browser mit WebGPU (aktuelles Chrome oder Edge) ist viel schneller als die CPU-Alternative.

Ist es kostenlos und darf ich die Ergebnisse kommerziell nutzen?

Ja. Das Tool ist kostenlos und läuft lokal. Whisper wird von OpenAI unter der MIT-Lizenz und Transformers.js unter Apache-2.0 veröffentlicht, die beide die kommerzielle Nutzung erlauben, sodass das Transkript Ihnen zur Nutzung gehört.

Die Genauigkeit hängt vom Modell und vom Audio ab. Klare Sprache wird gut transkribiert; starkes Rauschen, sich überlappende Sprecher oder starke Akzente verringern die Genauigkeit. Bevorzugen Sie bei wichtigem Audio das genaue Modell und überprüfen Sie die Ausgabe.

Audio in Text transkribieren, kostenlos und privat.

Transkribieren Sie Audio in Text in Ihrem Browser

Dieses Tool verwandelt eine Audiodatei in Text – reines Transkript, Zeilen mit Zeitstempel oder gebrauchsfertige Untertitel (SRT / VTT) – mit OpenAIs Modell Whisper, das direkt auf Ihrem Gerät läuft. Legen Sie eine MP3-, WAV-, M4A-, OGG-, FLAC- oder WebM-Datei ab und erhalten Sie den Text zurück, ohne etwas hochzuladen. Ihr Audio verlässt nie Ihren Browser; nur das KI-Modell wird (einmal) von einer CDN heruntergeladen, danach läuft alles lokal.

So funktioniert es

Das Tool führt ein quelloffenes Spracherkennungsmodell – Whisper (OpenAI) oder das leichtgewichtige Moonshine (Useful Sensors), beide MIT-lizenziert – in Ihrem Browser über Transformers.js aus, innerhalb eines Web Workers, damit die Seite nie einfriert. Ihre Datei wird dekodiert und auf 16-kHz-Mono-Audio heruntergerechnet, in 30-Sekunden-Blöcke aufgeteilt und Block für Block transkribiert. Sie wählen das Modell, das zu Ihren Sprach- und Qualitätsanforderungen passt:

Modell	Sprachen	Erster Download	Untertitel	Am besten für
Schnell (`whisper-tiny.en`)	Nur Englisch	~120 MB	Ja	Schnelle englische Entwürfe, leistungsschwache Geräte
Ausgewogen (`whisper-base`)	Mehrsprachig, inkl. Deutsch	~200 MB	Ja	Alltäglicher Standard
Genau (`whisper-large-v3-turbo`)	Mehrsprachig, inkl. Deutsch	~760 MB	Ja	Höchste Qualität; WebGPU empfohlen
Ultraleicht (`moonshine-tiny`)	Nur Englisch	~75 MB	Nein	Kurze englische Clips, am schnellsten, nur Text
Leicht (`moonshine-base`)	Nur Englisch	~155 MB	Nein	Kurze englische Clips, etwas genauer

Die beiden Moonshine-Modelle (Useful Sensors, MIT) sind eine ultraleichte Option, die für englische Sprache auf dem Gerät entwickelt wurde. Sie geben nur reinen Text zurück – keine Zeitstempel, also kein SRT/VTT – und sind für kurze Clips statt langer Aufnahmen gedacht. Für andere Sprachen oder wenn Sie Untertitel oder Langform-Audio benötigen, verwenden Sie ein Whisper-Modell.

Da das Modell lokal ausgeführt wird:

Ihr Audio verlässt nie Ihren Computer – es wird nichts an einen Server gesendet.
Nach dem ersten Download wird das Modell zwischengespeichert und funktioniert offline.
Browser mit WebGPU (aktuelles Chrome, Edge) laufen viel schneller als die CPU-Alternative (WebAssembly).

Schritte

Legen Sie eine Audiodatei auf den Upload-Bereich (oder klicken Sie, um eine auszuwählen).
Wählen Sie ein Modell – Ausgewogen ist ein guter mehrsprachiger Standard; verwenden Sie Genau für die beste Qualität oder Schnell für schnelles Englisch.
Wählen Sie bei mehrsprachigen Modellen die Sprache (oder belassen Sie sie auf automatische Erkennung).
Klicken Sie auf Transkribieren. Beim ersten Durchlauf jedes Modells lädt der Browser es herunter – Sie sehen einen Fortschritt in Prozent.
Wechseln Sie nach Abschluss zwischen Text, Mit Zeitstempel, SRT und VTT.
Kopieren oder laden Sie das benötigte Format herunter.

Beispiel: Laden Sie die Aufnahme eines 10-minütigen Interviews (interview.m4a) hoch → laden Sie interview.srt herunter, eine Untertiteldatei, die Sie direkt in einen Videoeditor laden können.

Ausgabeformate

Format	Enthält	Am besten für
Text	Reines Transkript, keine Zeiten	Notizen, Artikel, Kopieren und Einfügen
Mit Zeitstempel	`[Start → Ende] Text` pro Segment	Überfliegen, Protokolle, Zitieren
SRT	Nummerierte Untertitel-Cues mit `,` als Millisekundentrenner	Videoeditoren, die meisten Player
VTT	WebVTT-Cues mit `.` als Millisekundentrenner	HTML5-`<track>`, Web-Video

Wann dieses Tool statt eines Server-Tools verwenden

Situation	Beste Wahl
Sensible oder private Aufnahmen	Dieses Tool – das Audio verlässt nie Ihren Browser
Kein Konto / kein Upload gewünscht	Dieses Tool – vollständig clientseitig, kostenlos
Untertitel für ein Video	Dieses Tool – exportiert SRT oder VTT direkt
Hunderte Stunden, automatisierte Pipeline	Ein Server-/API-Tool – Batch-Durchsatz über einen Browser hinaus

Tipps für das beste Transkript

Klare Sprache und wenig Hintergrundgeräusche werden am genauesten transkribiert.
Wählen Sie bei anderssprachigem oder gemischtsprachigem Audio das genaue Modell und legen Sie die Sprache ausdrücklich fest.
Wenn sich der erste Durchlauf langsam anfühlt, ist das der einmalige Modell-Download; die nächste Datei ist viel schneller.
Lange Dateien dauern länger, weil Audio in 30-Sekunden-Blöcken verarbeitet wird – ein Browser mit WebGPU hilft hier stark.

Alles hier läuft in Ihrem Browser. Ihr Audio wird nie hochgeladen – das ist der ganze Sinn.

Transkribieren Sie Audio in Text in Ihrem Browser

So funktioniert es

Modell	Sprachen	Erster Download	Untertitel	Am besten für
Schnell (`whisper-tiny.en`)	Nur Englisch	~120 MB	Ja	Schnelle englische Entwürfe, leistungsschwache Geräte
Ausgewogen (`whisper-base`)	Mehrsprachig, inkl. Deutsch	~200 MB	Ja	Alltäglicher Standard
Genau (`whisper-large-v3-turbo`)	Mehrsprachig, inkl. Deutsch	~760 MB	Ja	Höchste Qualität; WebGPU empfohlen
Ultraleicht (`moonshine-tiny`)	Nur Englisch	~75 MB	Nein	Kurze englische Clips, am schnellsten, nur Text
Leicht (`moonshine-base`)	Nur Englisch	~155 MB	Nein	Kurze englische Clips, etwas genauer

Da das Modell lokal ausgeführt wird:

Ihr Audio verlässt nie Ihren Computer – es wird nichts an einen Server gesendet.
Nach dem ersten Download wird das Modell zwischengespeichert und funktioniert offline.
Browser mit WebGPU (aktuelles Chrome, Edge) laufen viel schneller als die CPU-Alternative (WebAssembly).

Schritte

Legen Sie eine Audiodatei auf den Upload-Bereich (oder klicken Sie, um eine auszuwählen).
Wählen Sie ein Modell – Ausgewogen ist ein guter mehrsprachiger Standard; verwenden Sie Genau für die beste Qualität oder Schnell für schnelles Englisch.
Wählen Sie bei mehrsprachigen Modellen die Sprache (oder belassen Sie sie auf automatische Erkennung).
Klicken Sie auf Transkribieren. Beim ersten Durchlauf jedes Modells lädt der Browser es herunter – Sie sehen einen Fortschritt in Prozent.
Wechseln Sie nach Abschluss zwischen Text, Mit Zeitstempel, SRT und VTT.
Kopieren oder laden Sie das benötigte Format herunter.

Ausgabeformate

Format	Enthält	Am besten für
Text	Reines Transkript, keine Zeiten	Notizen, Artikel, Kopieren und Einfügen
Mit Zeitstempel	`[Start → Ende] Text` pro Segment	Überfliegen, Protokolle, Zitieren
SRT	Nummerierte Untertitel-Cues mit `,` als Millisekundentrenner	Videoeditoren, die meisten Player
VTT	WebVTT-Cues mit `.` als Millisekundentrenner	HTML5-`<track>`, Web-Video

Wann dieses Tool statt eines Server-Tools verwenden

Situation	Beste Wahl
Sensible oder private Aufnahmen	Dieses Tool – das Audio verlässt nie Ihren Browser
Kein Konto / kein Upload gewünscht	Dieses Tool – vollständig clientseitig, kostenlos
Untertitel für ein Video	Dieses Tool – exportiert SRT oder VTT direkt
Hunderte Stunden, automatisierte Pipeline	Ein Server-/API-Tool – Batch-Durchsatz über einen Browser hinaus

Tipps für das beste Transkript

Klare Sprache und wenig Hintergrundgeräusche werden am genauesten transkribiert.
Wählen Sie bei anderssprachigem oder gemischtsprachigem Audio das genaue Modell und legen Sie die Sprache ausdrücklich fest.
Wenn sich der erste Durchlauf langsam anfühlt, ist das der einmalige Modell-Download; die nächste Datei ist viel schneller.
Lange Dateien dauern länger, weil Audio in 30-Sekunden-Blöcken verarbeitet wird – ein Browser mit WebGPU hilft hier stark.

Alles hier läuft in Ihrem Browser. Ihr Audio wird nie hochgeladen – das ist der ganze Sinn.

Audio in Text transkribieren

Transkribieren Sie Audio in Text in Ihrem Browser

So funktioniert es

Schritte

Ausgabeformate

Wann dieses Tool statt eines Server-Tools verwenden

Tipps für das beste Transkript

Häufige Fragen

Betrieben von

Kontakt aufnehmen

Danke für Ihre Kontaktaufnahme

Womit wir Ihnen helfen können

Sprechen Sie online mit uns

Audio in Text transkribieren

Transkribieren Sie Audio in Text in Ihrem Browser

So funktioniert es

Schritte

Ausgabeformate

Wann dieses Tool statt eines Server-Tools verwenden

Tipps für das beste Transkript

Häufige Fragen

Betrieben von

Kontakt aufnehmen

Danke für Ihre Kontaktaufnahme

Womit wir Ihnen helfen können

Sprechen Sie online mit uns

Audio in Text transkribieren

Transkribieren Sie Audio in Text in Ihrem Browser

So funktioniert es

Schritte

Ausgabeformate

Wann dieses Tool statt eines Server-Tools verwenden

Tipps für das beste Transkript

Häufige Fragen

Wird mein Audio auf einen Server hochgeladen?

Welche Audioformate kann ich transkribieren?

Welches Modell sollte ich wählen?

Kann es Untertitel (SRT / VTT) ausgeben?

Warum ist der erste Durchlauf langsam?

Ist es kostenlos und darf ich die Ergebnisse kommerziell nutzen?

Wie genau ist es?

Betrieben von

Kontakt aufnehmen

Danke für Ihre Kontaktaufnahme

Womit wir Ihnen helfen können

Sprechen Sie online mit uns

Audio in Text transkribieren

Transkribieren Sie Audio in Text in Ihrem Browser

So funktioniert es

Schritte

Ausgabeformate

Wann dieses Tool statt eines Server-Tools verwenden

Tipps für das beste Transkript

Häufige Fragen

Wird mein Audio auf einen Server hochgeladen?

Welche Audioformate kann ich transkribieren?

Welches Modell sollte ich wählen?

Kann es Untertitel (SRT / VTT) ausgeben?

Warum ist der erste Durchlauf langsam?

Ist es kostenlos und darf ich die Ergebnisse kommerziell nutzen?

Wie genau ist es?

Betrieben von

Kontakt aufnehmen

Danke für Ihre Kontaktaufnahme

Womit wir Ihnen helfen können

Sprechen Sie online mit uns