Meu áudio é enviado para um servidor?

Não. A transcrição roda inteiramente no seu navegador usando um modelo de IA Whisper no dispositivo. Seu áudio nunca sai do seu computador. A única coisa baixada da internet é o próprio modelo de IA, obtido uma vez de uma CDN e depois armazenado em cache.

Quais formatos de áudio posso transcrever?

Qualquer formato que seu navegador consiga decodificar: MP3, WAV, M4A/AAC, OGG, FLAC e WebM funcionam. O arquivo é decodificado e reamostrado para 16 kHz mono no seu navegador antes de ser enviado ao modelo.

Qual modelo devo escolher?

Equilibrado (Whisper base, multilíngue) é o padrão e lida com o português e muitos outros idiomas. Rápido (Whisper tiny.en) é o menor e mais rápido, mas só em inglês. Preciso (Whisper large-v3-turbo) oferece a melhor qualidade, incluindo o português, ao custo de um primeiro download maior: use-o em um navegador com WebGPU. Há também dois modelos Moonshine ultraleves (MIT) para clipes curtos em inglês: são os menores e mais rápidos, mas retornam apenas texto simples (sem marcações de tempo ou legendas). Para outros idiomas, ou quando precisar de legendas, escolha um modelo Whisper.

Ele pode gerar legendas (SRT / VTT)?

Sim. Após transcrever, você pode alternar entre texto simples, linhas com marcação de tempo, SRT e WebVTT, e baixar ou copiar qualquer um deles. SRT e VTT ficam prontos para carregar em editores de vídeo e players como faixas de legenda.

Por que a primeira execução é lenta?

Na primeira vez que você usa um modelo, o navegador baixa seus pesos (cerca de 120 MB para o Rápido, 200 MB para o Equilibrado, 760 MB para o Preciso) e os armazena em cache. Depois disso, as execuções são rápidas e funcionam até offline. Áudio longo é processado em blocos de 30 segundos, então arquivos mais longos levam proporcionalmente mais tempo: um navegador com WebGPU (Chrome ou Edge recentes) é muito mais rápido do que a alternativa por CPU.

É gratuito e posso usar os resultados comercialmente?

Sim. A ferramenta é gratuita e roda localmente. O Whisper é lançado pela OpenAI sob a licença MIT e o Transformers.js sob a Apache-2.0, ambas permitindo uso comercial, então a transcrição é sua para usar.

Quão preciso ele é?

A precisão depende do modelo e do áudio. Fala clara é transcrita bem; ruído intenso, vozes sobrepostas ou sotaques fortes reduzem a precisão. Para áudio importante, prefira o modelo Preciso e revise o resultado.

Transcreva áudio em texto, grátis e com privacidade.

Transcreva áudio em texto no seu navegador

Esta ferramenta transforma um arquivo de áudio em texto — transcrição simples, linhas com marcação de tempo ou legendas prontas para usar (SRT / VTT) — usando o modelo Whisper da OpenAI rodando diretamente no seu dispositivo. Solte um arquivo MP3, WAV, M4A, OGG, FLAC ou WebM e receba o texto de volta sem enviar nada. Seu áudio nunca sai do navegador; apenas o modelo de IA é baixado (uma vez) de uma CDN e, então, tudo roda localmente.

Como funciona

A ferramenta executa um modelo de reconhecimento de fala de código aberto — Whisper (OpenAI) ou o leve Moonshine (Useful Sensors), ambos com licença MIT — no seu navegador por meio do Transformers.js, dentro de um Web Worker, para que a página nunca congele. Seu arquivo é decodificado e reamostrado para áudio mono de 16 kHz, dividido em blocos de 30 segundos e transcrito bloco por bloco. Você escolhe o modelo que combina com suas necessidades de idioma e qualidade:

Modelo	Idiomas	Primeiro download	Legendas	Ideal para
Rápido (`whisper-tiny.en`)	Apenas inglês	~120 MB	Sim	Rascunhos rápidos em inglês, dispositivos de baixa potência
Equilibrado (`whisper-base`)	Multilíngue, incl. português	~200 MB	Sim	Padrão do dia a dia
Preciso (`whisper-large-v3-turbo`)	Multilíngue, incl. português	~760 MB	Sim	Máxima qualidade; WebGPU recomendado
Ultraleve (`moonshine-tiny`)	Apenas inglês	~75 MB	Não	Clipes curtos em inglês, o mais rápido, apenas texto
Leve (`moonshine-base`)	Apenas inglês	~155 MB	Não	Clipes curtos em inglês, um pouco mais preciso

Os dois modelos Moonshine (Useful Sensors, MIT) são uma opção ultraleve criada para fala em inglês no dispositivo. Eles retornam apenas texto simples — sem marcações de tempo, portanto sem SRT/VTT — e são destinados a clipes curtos, e não a gravações longas. Para outros idiomas, ou quando você precisa de legendas ou áudio de longa duração, use um modelo Whisper.

Como o modelo é executado localmente:

Seu áudio nunca sai do seu computador — nada é enviado a um servidor.
Após o primeiro download, o modelo fica em cache e funciona offline.
Navegadores com WebGPU (Chrome e Edge recentes) rodam muito mais rápido do que a alternativa por CPU (WebAssembly).

Passos

Solte um arquivo de áudio na área de upload (ou clique para escolher um).
Escolha um modelo: Equilibrado é um bom padrão multilíngue; use Preciso para a melhor qualidade, ou Rápido para inglês rápido.
Para modelos multilíngues, escolha o idioma (ou deixe em Detecção automática).
Clique em Transcrever. Na primeira execução de cada modelo, o navegador o baixa — você verá uma porcentagem de progresso.
Ao terminar, alterne entre Texto, Com marcação de tempo, SRT e VTT.
Copie ou baixe o formato de que você precisa.

Exemplo: envie a gravação de uma entrevista de 10 minutos (interview.m4a) → baixe interview.srt, um arquivo de legenda que você pode carregar direto em um editor de vídeo.

Formatos de saída

Formato	Contém	Ideal para
Texto	Transcrição simples, sem tempos	Notas, artigos, copiar e colar
Com marcação de tempo	`[início → fim] texto` por segmento	Leitura rápida, atas, citações
SRT	Legendas numeradas com separador de milissegundos `,`	Editores de vídeo, a maioria dos players
VTT	Cues WebVTT com separador de milissegundos `.`	`<track>` HTML5, vídeo na web

Quando usar esta ferramenta em vez de uma de servidor

Situação	Melhor escolha
Gravações sensíveis ou privadas	Esta ferramenta — o áudio nunca sai do navegador
Sem conta / sem upload desejado	Esta ferramenta — totalmente do lado do cliente, gratuita
Legendas para um vídeo	Esta ferramenta — exporte SRT ou VTT diretamente
Centenas de horas, pipeline automatizada	Uma ferramenta de servidor/API — throughput em lote além de um navegador

Dicas para a melhor transcrição

Fala clara e pouco ruído de fundo são transcritos com a maior precisão.
Para áudio em outro idioma ou com idiomas misturados, prefira o modelo Preciso e defina o idioma explicitamente.
Se a primeira execução parecer lenta, é o download único do modelo; o próximo arquivo é muito mais rápido.
Arquivos longos levam mais tempo porque o áudio é processado em blocos de 30 segundos — um navegador com WebGPU ajuda muito aqui.

Tudo aqui roda no seu navegador. Seu áudio nunca é enviado — esse é justamente o objetivo.

Transcreva áudio em texto no seu navegador

Como funciona

Modelo	Idiomas	Primeiro download	Legendas	Ideal para
Rápido (`whisper-tiny.en`)	Apenas inglês	~120 MB	Sim	Rascunhos rápidos em inglês, dispositivos de baixa potência
Equilibrado (`whisper-base`)	Multilíngue, incl. português	~200 MB	Sim	Padrão do dia a dia
Preciso (`whisper-large-v3-turbo`)	Multilíngue, incl. português	~760 MB	Sim	Máxima qualidade; WebGPU recomendado
Ultraleve (`moonshine-tiny`)	Apenas inglês	~75 MB	Não	Clipes curtos em inglês, o mais rápido, apenas texto
Leve (`moonshine-base`)	Apenas inglês	~155 MB	Não	Clipes curtos em inglês, um pouco mais preciso

Como o modelo é executado localmente:

Seu áudio nunca sai do seu computador — nada é enviado a um servidor.
Após o primeiro download, o modelo fica em cache e funciona offline.
Navegadores com WebGPU (Chrome e Edge recentes) rodam muito mais rápido do que a alternativa por CPU (WebAssembly).

Passos

Solte um arquivo de áudio na área de upload (ou clique para escolher um).
Escolha um modelo: Equilibrado é um bom padrão multilíngue; use Preciso para a melhor qualidade, ou Rápido para inglês rápido.
Para modelos multilíngues, escolha o idioma (ou deixe em Detecção automática).
Clique em Transcrever. Na primeira execução de cada modelo, o navegador o baixa — você verá uma porcentagem de progresso.
Ao terminar, alterne entre Texto, Com marcação de tempo, SRT e VTT.
Copie ou baixe o formato de que você precisa.

Exemplo: envie a gravação de uma entrevista de 10 minutos (interview.m4a) → baixe interview.srt, um arquivo de legenda que você pode carregar direto em um editor de vídeo.

Formatos de saída

Formato	Contém	Ideal para
Texto	Transcrição simples, sem tempos	Notas, artigos, copiar e colar
Com marcação de tempo	`[início → fim] texto` por segmento	Leitura rápida, atas, citações
SRT	Legendas numeradas com separador de milissegundos `,`	Editores de vídeo, a maioria dos players
VTT	Cues WebVTT com separador de milissegundos `.`	`<track>` HTML5, vídeo na web

Quando usar esta ferramenta em vez de uma de servidor

Situação	Melhor escolha
Gravações sensíveis ou privadas	Esta ferramenta — o áudio nunca sai do navegador
Sem conta / sem upload desejado	Esta ferramenta — totalmente do lado do cliente, gratuita
Legendas para um vídeo	Esta ferramenta — exporte SRT ou VTT diretamente
Centenas de horas, pipeline automatizada	Uma ferramenta de servidor/API — throughput em lote além de um navegador

Dicas para a melhor transcrição

Fala clara e pouco ruído de fundo são transcritos com a maior precisão.
Para áudio em outro idioma ou com idiomas misturados, prefira o modelo Preciso e defina o idioma explicitamente.
Se a primeira execução parecer lenta, é o download único do modelo; o próximo arquivo é muito mais rápido.
Arquivos longos levam mais tempo porque o áudio é processado em blocos de 30 segundos — um navegador com WebGPU ajuda muito aqui.

Tudo aqui roda no seu navegador. Seu áudio nunca é enviado — esse é justamente o objetivo.

Transcreva áudio em texto

Transcreva áudio em texto no seu navegador

Como funciona

Passos

Formatos de saída

Quando usar esta ferramenta em vez de uma de servidor

Dicas para a melhor transcrição

Perguntas frequentes

Operado por

Fale conosco

Obrigado por entrar em contato

Em que podemos ajudar

Fale conosco online

Transcreva áudio em texto

Transcreva áudio em texto no seu navegador

Como funciona

Passos

Formatos de saída

Quando usar esta ferramenta em vez de uma de servidor

Dicas para a melhor transcrição

Perguntas frequentes

Operado por

Fale conosco

Obrigado por entrar em contato

Em que podemos ajudar

Fale conosco online