Il mio audio viene caricato su un server?

No. La trascrizione avviene interamente nel tuo browser tramite un modello AI Whisper sul dispositivo. Il tuo audio non lascia mai il computer. L'unica cosa scaricata da internet è il modello AI stesso, recuperato una volta da una CDN e poi memorizzato in cache.

Quali formati audio posso trascrivere?

Qualsiasi formato che il tuo browser sappia decodificare: MP3, WAV, M4A/AAC, OGG, FLAC e WebM funzionano tutti. Il file viene decodificato e ricampionato a 16 kHz mono nel browser prima di essere passato al modello.

Quale modello dovrei scegliere?

Bilanciato (Whisper base, multilingue) è quello predefinito e gestisce l'italiano e molte altre lingue. Veloce (Whisper tiny.en) è il più piccolo e rapido ma solo in inglese. Accurato (Whisper large-v3-turbo) offre la qualità migliore, incluso l'italiano, al costo di un primo download più grande: usalo su un browser con WebGPU. Ci sono anche due modelli Moonshine ultraleggeri (MIT) per brevi clip in inglese: sono i più piccoli e veloci ma restituiscono solo testo semplice (niente timestamp né sottotitoli). Per le lingue diverse dall'inglese, o quando ti servono i sottotitoli, scegli un modello Whisper.

Può generare i sottotitoli (SRT / VTT)?

Sì. Dopo la trascrizione puoi passare tra testo semplice, righe con timestamp, SRT e WebVTT, e scaricare o copiare ognuno di essi. SRT e VTT sono pronti da caricare in editor video e lettori come tracce di sottotitoli.

Perché la prima esecuzione è lenta?

La prima volta che usi un modello, il browser scarica i suoi pesi (circa 120 MB per Veloce, 200 MB per Bilanciato, 760 MB per Accurato) e li memorizza in cache. Dopodiché le esecuzioni sono rapide e funzionano anche offline. L'audio lungo viene elaborato in blocchi di 30 secondi, quindi i file più lunghi richiedono proporzionalmente più tempo: un browser con WebGPU (Chrome o Edge recenti) è molto più veloce del fallback su CPU.

È gratuito e posso usare i risultati commercialmente?

Sì. Lo strumento è gratuito e viene eseguito localmente. Whisper è rilasciato da OpenAI con licenza MIT e Transformers.js con Apache-2.0, entrambe che consentono l'uso commerciale, quindi la trascrizione è tua da usare.

L'accuratezza dipende dal modello e dall'audio. Il parlato chiaro viene trascritto bene; rumore forte, sovrapposizione di voci o accenti marcati riducono l'accuratezza. Per audio importante, preferisci il modello Accurato e controlla l'output.

Trascrivi audio in testo, gratis e privato.

Trascrivi l'audio in testo nel tuo browser

Questo strumento trasforma un file audio in testo — trascrizione semplice, righe con timestamp o sottotitoli pronti all'uso (SRT / VTT) — usando il modello Whisper di OpenAI eseguito direttamente sul tuo dispositivo. Carica un file MP3, WAV, M4A, OGG, FLAC o WebM e riavrai il testo senza caricare nulla. Il tuo audio non lascia mai il browser; solo il modello AI viene scaricato (una volta) da una CDN, poi tutto viene eseguito localmente.

Come funziona

Lo strumento esegue un modello di riconoscimento vocale open source — Whisper (OpenAI) o il leggero Moonshine (Useful Sensors), entrambi con licenza MIT — nel tuo browser tramite Transformers.js, all'interno di un Web Worker così la pagina non si blocca mai. Il tuo file viene decodificato e ricampionato ad audio mono a 16 kHz, diviso in blocchi di 30 secondi e trascritto blocco per blocco. Scegli il modello adatto alle tue esigenze di lingua e qualità:

Modello	Lingue	Primo download	Sottotitoli	Ideale per
Veloce (`whisper-tiny.en`)	Solo inglese	~120 MB	Sì	Bozze rapide in inglese, dispositivi a basso consumo
Bilanciato (`whisper-base`)	Multilingue, incl. italiano	~200 MB	Sì	Impostazione quotidiana
Accurato (`whisper-large-v3-turbo`)	Multilingue, incl. italiano	~760 MB	Sì	Massima qualità; WebGPU consigliato
Ultraleggero (`moonshine-tiny`)	Solo inglese	~75 MB	No	Clip brevi in inglese, il più veloce, solo testo
Leggero (`moonshine-base`)	Solo inglese	~155 MB	No	Clip brevi in inglese, un po' più accurato

I due modelli Moonshine (Useful Sensors, MIT) sono un'opzione ultraleggera creata per il parlato inglese sul dispositivo. Restituiscono solo testo semplice — niente timestamp, quindi niente SRT/VTT — e sono pensati per clip brevi anziché registrazioni lunghe. Per lingue diverse dall'inglese, o quando ti servono sottotitoli o audio di lunga durata, usa un modello Whisper.

Poiché il modello viene eseguito localmente:

Il tuo audio non lascia mai il computer — nulla viene inviato a un server.
Dopo il primo download, il modello viene memorizzato in cache e funziona offline.
I browser con WebGPU (Chrome ed Edge recenti) sono molto più veloci del fallback su CPU (WebAssembly).

Passaggi

Trascina un file audio nell'area di caricamento (o clicca per sceglierne uno).
Scegli un modello: Bilanciato è un buon valore predefinito multilingue; usa Accurato per la migliore qualità, o Veloce per l'inglese rapido.
Per i modelli multilingue, scegli la lingua (o lasciala su Rilevamento automatico).
Clicca Trascrivi. Alla prima esecuzione di ogni modello, il browser lo scarica — vedrai una percentuale di avanzamento.
Al termine, passa tra Testo, Con timestamp, SRT e VTT.
Copia o scarica il formato che ti serve.

Esempio: carica la registrazione di un'intervista di 10 minuti (interview.m4a) → scarica interview.srt, un file di sottotitoli che puoi caricare direttamente in un editor video.

Formati di output

Formato	Contiene	Ideale per
Testo	Trascrizione semplice, senza tempi	Note, articoli, copia-incolla
Con timestamp	`[inizio → fine] testo` per segmento	Scorrere, verbali, citazioni
SRT	Sottotitoli numerati con separatore dei millisecondi `,`	Editor video, la maggior parte dei lettori
VTT	Cue WebVTT con separatore dei millisecondi `.`	`<track>` HTML5, video web

Quando usarlo rispetto a uno strumento server

Situazione	Scelta migliore
Registrazioni sensibili o private	Questo strumento — l'audio non lascia mai il browser
Nessun account / nessun upload desiderato	Questo strumento — completamente lato client, gratuito
Sottotitoli per un video	Questo strumento — esporta SRT o VTT direttamente
Centinaia di ore, pipeline automatizzata	Uno strumento server/API — throughput batch oltre un solo browser

Consigli per la migliore trascrizione

Parlato chiaro e poco rumore di fondo si trascrivono con la massima accuratezza.
Per audio in una lingua diversa dall'inglese o misto, preferisci il modello Accurato e imposta la lingua esplicitamente.
Se la prima esecuzione sembra lenta, è il download una tantum del modello; il file successivo è molto più veloce.
I file lunghi richiedono più tempo perché l'audio viene elaborato in blocchi di 30 secondi — un browser con WebGPU aiuta molto qui.

Tutto qui viene eseguito nel tuo browser. Il tuo audio non viene mai caricato — è tutto il punto.

Trascrivi l'audio in testo nel tuo browser

Come funziona

Modello	Lingue	Primo download	Sottotitoli	Ideale per
Veloce (`whisper-tiny.en`)	Solo inglese	~120 MB	Sì	Bozze rapide in inglese, dispositivi a basso consumo
Bilanciato (`whisper-base`)	Multilingue, incl. italiano	~200 MB	Sì	Impostazione quotidiana
Accurato (`whisper-large-v3-turbo`)	Multilingue, incl. italiano	~760 MB	Sì	Massima qualità; WebGPU consigliato
Ultraleggero (`moonshine-tiny`)	Solo inglese	~75 MB	No	Clip brevi in inglese, il più veloce, solo testo
Leggero (`moonshine-base`)	Solo inglese	~155 MB	No	Clip brevi in inglese, un po' più accurato

Poiché il modello viene eseguito localmente:

Il tuo audio non lascia mai il computer — nulla viene inviato a un server.
Dopo il primo download, il modello viene memorizzato in cache e funziona offline.
I browser con WebGPU (Chrome ed Edge recenti) sono molto più veloci del fallback su CPU (WebAssembly).

Passaggi

Trascina un file audio nell'area di caricamento (o clicca per sceglierne uno).
Scegli un modello: Bilanciato è un buon valore predefinito multilingue; usa Accurato per la migliore qualità, o Veloce per l'inglese rapido.
Per i modelli multilingue, scegli la lingua (o lasciala su Rilevamento automatico).
Clicca Trascrivi. Alla prima esecuzione di ogni modello, il browser lo scarica — vedrai una percentuale di avanzamento.
Al termine, passa tra Testo, Con timestamp, SRT e VTT.
Copia o scarica il formato che ti serve.

Esempio: carica la registrazione di un'intervista di 10 minuti (interview.m4a) → scarica interview.srt, un file di sottotitoli che puoi caricare direttamente in un editor video.

Formati di output

Formato	Contiene	Ideale per
Testo	Trascrizione semplice, senza tempi	Note, articoli, copia-incolla
Con timestamp	`[inizio → fine] testo` per segmento	Scorrere, verbali, citazioni
SRT	Sottotitoli numerati con separatore dei millisecondi `,`	Editor video, la maggior parte dei lettori
VTT	Cue WebVTT con separatore dei millisecondi `.`	`<track>` HTML5, video web

Quando usarlo rispetto a uno strumento server

Situazione	Scelta migliore
Registrazioni sensibili o private	Questo strumento — l'audio non lascia mai il browser
Nessun account / nessun upload desiderato	Questo strumento — completamente lato client, gratuito
Sottotitoli per un video	Questo strumento — esporta SRT o VTT direttamente
Centinaia di ore, pipeline automatizzata	Uno strumento server/API — throughput batch oltre un solo browser

Consigli per la migliore trascrizione

Parlato chiaro e poco rumore di fondo si trascrivono con la massima accuratezza.
Per audio in una lingua diversa dall'inglese o misto, preferisci il modello Accurato e imposta la lingua esplicitamente.
Se la prima esecuzione sembra lenta, è il download una tantum del modello; il file successivo è molto più veloce.
I file lunghi richiedono più tempo perché l'audio viene elaborato in blocchi di 30 secondi — un browser con WebGPU aiuta molto qui.

Tutto qui viene eseguito nel tuo browser. Il tuo audio non viene mai caricato — è tutto il punto.

Trascrivi audio in testo

Trascrivi l'audio in testo nel tuo browser

Come funziona

Passaggi

Formati di output

Quando usarlo rispetto a uno strumento server

Consigli per la migliore trascrizione

FAQ

Gestito da

Contattaci

Grazie per averci contattato

In cosa possiamo aiutarti

Parla con noi online

Trascrivi audio in testo

Trascrivi l'audio in testo nel tuo browser

Come funziona

Passaggi

Formati di output

Quando usarlo rispetto a uno strumento server

Consigli per la migliore trascrizione

FAQ

Gestito da

Contattaci

Grazie per averci contattato

In cosa possiamo aiutarti

Parla con noi online

Trascrivi audio in testo

Trascrivi l'audio in testo nel tuo browser

Come funziona

Passaggi

Formati di output

Quando usarlo rispetto a uno strumento server

Consigli per la migliore trascrizione

FAQ

Il mio audio viene caricato su un server?

Quali formati audio posso trascrivere?

Quale modello dovrei scegliere?

Può generare i sottotitoli (SRT / VTT)?

Perché la prima esecuzione è lenta?

È gratuito e posso usare i risultati commercialmente?

Quanto è accurato?

Gestito da

Contattaci

Grazie per averci contattato

In cosa possiamo aiutarti

Parla con noi online

Trascrivi audio in testo

Trascrivi l'audio in testo nel tuo browser

Come funziona

Passaggi

Formati di output

Quando usarlo rispetto a uno strumento server

Consigli per la migliore trascrizione

FAQ

Il mio audio viene caricato su un server?

Quali formati audio posso trascrivere?

Quale modello dovrei scegliere?

Può generare i sottotitoli (SRT / VTT)?

Perché la prima esecuzione è lenta?

È gratuito e posso usare i risultati commercialmente?

Quanto è accurato?

Gestito da

Contattaci

Grazie per averci contattato

In cosa possiamo aiutarti

Parla con noi online