Trascrivi l'audio in testo nel tuo browser
Questo strumento trasforma un file audio in testo — trascrizione semplice, righe con timestamp o sottotitoli pronti all'uso (SRT / VTT) — usando il modello Whisper di OpenAI eseguito direttamente sul tuo dispositivo. Carica un file MP3, WAV, M4A, OGG, FLAC o WebM e riavrai il testo senza caricare nulla. Il tuo audio non lascia mai il browser; solo il modello AI viene scaricato (una volta) da una CDN, poi tutto viene eseguito localmente.
Come funziona
Lo strumento esegue un modello di riconoscimento vocale open source — Whisper (OpenAI) o il leggero Moonshine (Useful Sensors), entrambi con licenza MIT — nel tuo browser tramite Transformers.js, all'interno di un Web Worker così la pagina non si blocca mai. Il tuo file viene decodificato e ricampionato ad audio mono a 16 kHz, diviso in blocchi di 30 secondi e trascritto blocco per blocco. Scegli il modello adatto alle tue esigenze di lingua e qualità:
| Modello | Lingue | Primo download | Sottotitoli | Ideale per |
|---|---|---|---|---|
Veloce (whisper-tiny.en) | Solo inglese | ~120 MB | Sì | Bozze rapide in inglese, dispositivi a basso consumo |
Bilanciato (whisper-base) | Multilingue, incl. italiano | ~200 MB | Sì | Impostazione quotidiana |
Accurato (whisper-large-v3-turbo) | Multilingue, incl. italiano | ~760 MB | Sì | Massima qualità; WebGPU consigliato |
Ultraleggero (moonshine-tiny) | Solo inglese | ~75 MB | No | Clip brevi in inglese, il più veloce, solo testo |
Leggero (moonshine-base) | Solo inglese | ~155 MB | No | Clip brevi in inglese, un po' più accurato |
I due modelli Moonshine (Useful Sensors, MIT) sono un'opzione ultraleggera creata per il parlato inglese sul dispositivo. Restituiscono solo testo semplice — niente timestamp, quindi niente SRT/VTT — e sono pensati per clip brevi anziché registrazioni lunghe. Per lingue diverse dall'inglese, o quando ti servono sottotitoli o audio di lunga durata, usa un modello Whisper.
Poiché il modello viene eseguito localmente:
- Il tuo audio non lascia mai il computer — nulla viene inviato a un server.
- Dopo il primo download, il modello viene memorizzato in cache e funziona offline.
- I browser con WebGPU (Chrome ed Edge recenti) sono molto più veloci del fallback su CPU (WebAssembly).
Passaggi
- Trascina un file audio nell'area di caricamento (o clicca per sceglierne uno).
- Scegli un modello: Bilanciato è un buon valore predefinito multilingue; usa Accurato per la migliore qualità, o Veloce per l'inglese rapido.
- Per i modelli multilingue, scegli la lingua (o lasciala su Rilevamento automatico).
- Clicca Trascrivi. Alla prima esecuzione di ogni modello, il browser lo scarica — vedrai una percentuale di avanzamento.
- Al termine, passa tra Testo, Con timestamp, SRT e VTT.
- Copia o scarica il formato che ti serve.
Esempio: carica la registrazione di un'intervista di 10 minuti (interview.m4a) → scarica interview.srt, un file di sottotitoli che puoi caricare direttamente in un editor video.
Formati di output
| Formato | Contiene | Ideale per |
|---|---|---|
| Testo | Trascrizione semplice, senza tempi | Note, articoli, copia-incolla |
| Con timestamp | [inizio → fine] testo per segmento | Scorrere, verbali, citazioni |
| SRT | Sottotitoli numerati con separatore dei millisecondi , | Editor video, la maggior parte dei lettori |
| VTT | Cue WebVTT con separatore dei millisecondi . | <track> HTML5, video web |
Quando usarlo rispetto a uno strumento server
| Situazione | Scelta migliore |
|---|---|
| Registrazioni sensibili o private | Questo strumento — l'audio non lascia mai il browser |
| Nessun account / nessun upload desiderato | Questo strumento — completamente lato client, gratuito |
| Sottotitoli per un video | Questo strumento — esporta SRT o VTT direttamente |
| Centinaia di ore, pipeline automatizzata | Uno strumento server/API — throughput batch oltre un solo browser |
Consigli per la migliore trascrizione
- Parlato chiaro e poco rumore di fondo si trascrivono con la massima accuratezza.
- Per audio in una lingua diversa dall'inglese o misto, preferisci il modello Accurato e imposta la lingua esplicitamente.
- Se la prima esecuzione sembra lenta, è il download una tantum del modello; il file successivo è molto più veloce.
- I file lunghi richiedono più tempo perché l'audio viene elaborato in blocchi di 30 secondi — un browser con WebGPU aiuta molto qui.
Tutto qui viene eseguito nel tuo browser. Il tuo audio non viene mai caricato — è tutto il punto.


