Pitch: Passei meses construindo uma ferramenta de transcricao de video e lancei hoje — o que aprendi no caminho
Hoje lancei o Tonivox. A proposta e simples: voce faz upload de um video e recebe a transcricao completa em texto. Quero compartilhar o processo de forma honesta, incluindo o que foi mais dificil do que eu esperava.
O problema que eu queria resolver
Trabalho bastante com video. Entrevistas, reunioes gravadas, aulas online. Toda vez que precisava extrair o que foi dito, as opcoes eram: digitar manualmente (lento), usar as legendas automaticas do YouTube (imprecisas, e so funciona se voce subir o video la), ou pagar por ferramentas com assinatura mensal — mesmo nos meses em que eu mal usava.
Nenhuma dessas opcoes fazia sentido. Eu queria algo que cobrasse por uso, aceitasse qualquer arquivo de video e entregasse um resultado preciso — especialmente em portugues, que a maioria das ferramentas trata como segunda categoria.
O que eu construi
O Tonivox e uma aplicacao web. Voce faz upload de um arquivo de video (MP4, MOV, AVI, WebM — ate 60 minutos) e recebe a transcricao completa em texto simples em questao de segundos. Sem instalacao, sem assinatura mensal. Voce compra creditos e usa conforme transcreve.
O motor por baixo e o Whisper, da OpenAI, que lida bem com portugues e ingles. A stack e Next.js, Prisma, Better Auth para autenticacao e Stripe para pagamentos.
O que foi mais dificil do que eu esperava
Algumas coisas me pegaram de surpresa:
- Extracao de audio do video no servidor e mais trabalhosa do que parece. O comportamento do FFmpeg varia bastante dependendo do codec e do container.
- Lidar com arquivos grandes em ambiente serverless exigiu repensar todo o fluxo de upload. Acabei processando em um worker dedicado para evitar problemas de timeout.
- Precificacao. Gastei mais tempo do que gostaria decidindo como cobrar pelos creditos. Barato demais e a conta nao fecha. Caro demais e ninguem testa. Cheguei em tres faixas entre R5 e R40 e vou ajustar com base no que aprender.
O que eu nao fiz (ainda)
Sem identificacao de falantes (quem disse o que). Sem timestamps por palavra. Sem exportacao de legendas. Sem gravacao ao vivo. Tudo isso esta na lista, mas lancei sem essas funcionalidades de proposito — quero validar o caso de uso principal antes de expandir.
Por que estou postando aqui
Feedback honesto. Se voce trabalha com audio ou video no dia a dia — jornalismo, criacao de conteudo, pesquisa, educacao, area juridica ou medica — quero saber se isso resolve um problema real pra voce ou onde ainda falta.
Se testar, me conta o que quebrou, o que foi confuso ou o que voce sentiu falta. Isso vale mais pra mim agora do que qualquer metrica de trafego.
tonivox.com