Transcreva áudio em texto no seu navegador
Esta ferramenta transforma um arquivo de áudio em texto — transcrição simples, linhas com marcação de tempo ou legendas prontas para usar (SRT / VTT) — usando o modelo Whisper da OpenAI rodando diretamente no seu dispositivo. Solte um arquivo MP3, WAV, M4A, OGG, FLAC ou WebM e receba o texto de volta sem enviar nada. Seu áudio nunca sai do navegador; apenas o modelo de IA é baixado (uma vez) de uma CDN e, então, tudo roda localmente.
Como funciona
A ferramenta executa um modelo de reconhecimento de fala de código aberto — Whisper (OpenAI) ou o leve Moonshine (Useful Sensors), ambos com licença MIT — no seu navegador por meio do Transformers.js, dentro de um Web Worker, para que a página nunca congele. Seu arquivo é decodificado e reamostrado para áudio mono de 16 kHz, dividido em blocos de 30 segundos e transcrito bloco por bloco. Você escolhe o modelo que combina com suas necessidades de idioma e qualidade:
| Modelo | Idiomas | Primeiro download | Legendas | Ideal para |
|---|---|---|---|---|
Rápido (whisper-tiny.en) | Apenas inglês | ~120 MB | Sim | Rascunhos rápidos em inglês, dispositivos de baixa potência |
Equilibrado (whisper-base) | Multilíngue, incl. português | ~200 MB | Sim | Padrão do dia a dia |
Preciso (whisper-large-v3-turbo) | Multilíngue, incl. português | ~760 MB | Sim | Máxima qualidade; WebGPU recomendado |
Ultraleve (moonshine-tiny) | Apenas inglês | ~75 MB | Não | Clipes curtos em inglês, o mais rápido, apenas texto |
Leve (moonshine-base) | Apenas inglês | ~155 MB | Não | Clipes curtos em inglês, um pouco mais preciso |
Os dois modelos Moonshine (Useful Sensors, MIT) são uma opção ultraleve criada para fala em inglês no dispositivo. Eles retornam apenas texto simples — sem marcações de tempo, portanto sem SRT/VTT — e são destinados a clipes curtos, e não a gravações longas. Para outros idiomas, ou quando você precisa de legendas ou áudio de longa duração, use um modelo Whisper.
Como o modelo é executado localmente:
- Seu áudio nunca sai do seu computador — nada é enviado a um servidor.
- Após o primeiro download, o modelo fica em cache e funciona offline.
- Navegadores com WebGPU (Chrome e Edge recentes) rodam muito mais rápido do que a alternativa por CPU (WebAssembly).
Passos
- Solte um arquivo de áudio na área de upload (ou clique para escolher um).
- Escolha um modelo: Equilibrado é um bom padrão multilíngue; use Preciso para a melhor qualidade, ou Rápido para inglês rápido.
- Para modelos multilíngues, escolha o idioma (ou deixe em Detecção automática).
- Clique em Transcrever. Na primeira execução de cada modelo, o navegador o baixa — você verá uma porcentagem de progresso.
- Ao terminar, alterne entre Texto, Com marcação de tempo, SRT e VTT.
- Copie ou baixe o formato de que você precisa.
Exemplo: envie a gravação de uma entrevista de 10 minutos (interview.m4a) → baixe interview.srt, um arquivo de legenda que você pode carregar direto em um editor de vídeo.
Formatos de saída
| Formato | Contém | Ideal para |
|---|---|---|
| Texto | Transcrição simples, sem tempos | Notas, artigos, copiar e colar |
| Com marcação de tempo | [início → fim] texto por segmento | Leitura rápida, atas, citações |
| SRT | Legendas numeradas com separador de milissegundos , | Editores de vídeo, a maioria dos players |
| VTT | Cues WebVTT com separador de milissegundos . | <track> HTML5, vídeo na web |
Quando usar esta ferramenta em vez de uma de servidor
| Situação | Melhor escolha |
|---|---|
| Gravações sensíveis ou privadas | Esta ferramenta — o áudio nunca sai do navegador |
| Sem conta / sem upload desejado | Esta ferramenta — totalmente do lado do cliente, gratuita |
| Legendas para um vídeo | Esta ferramenta — exporte SRT ou VTT diretamente |
| Centenas de horas, pipeline automatizada | Uma ferramenta de servidor/API — throughput em lote além de um navegador |
Dicas para a melhor transcrição
- Fala clara e pouco ruído de fundo são transcritos com a maior precisão.
- Para áudio em outro idioma ou com idiomas misturados, prefira o modelo Preciso e defina o idioma explicitamente.
- Se a primeira execução parecer lenta, é o download único do modelo; o próximo arquivo é muito mais rápido.
- Arquivos longos levam mais tempo porque o áudio é processado em blocos de 30 segundos — um navegador com WebGPU ajuda muito aqui.
Tudo aqui roda no seu navegador. Seu áudio nunca é enviado — esse é justamente o objetivo.


