Pitch: Passei meses construindo uma ferramenta de transcricao de video e lancei hoje — o que aprendi no caminho · fyoussef

Hoje lancei o Tonivox. A proposta e simples: voce faz upload de um video e recebe a transcricao completa em texto. Quero compartilhar o processo de forma honesta, incluindo o que foi mais dificil do que eu esperava.

O problema que eu queria resolver

Trabalho bastante com video. Entrevistas, reunioes gravadas, aulas online. Toda vez que precisava extrair o que foi dito, as opcoes eram: digitar manualmente (lento), usar as legendas automaticas do YouTube (imprecisas, e so funciona se voce subir o video la), ou pagar por ferramentas com assinatura mensal — mesmo nos meses em que eu mal usava.

Nenhuma dessas opcoes fazia sentido. Eu queria algo que cobrasse por uso, aceitasse qualquer arquivo de video e entregasse um resultado preciso — especialmente em portugues, que a maioria das ferramentas trata como segunda categoria.

O que eu construi

O Tonivox e uma aplicacao web. Voce faz upload de um arquivo de video (MP4, MOV, AVI, WebM — ate 60 minutos) e recebe a transcricao completa em texto simples em questao de segundos. Sem instalacao, sem assinatura mensal. Voce compra creditos e usa conforme transcreve.

O motor por baixo e o Whisper, da OpenAI, que lida bem com portugues e ingles. A stack e Next.js, Prisma, Better Auth para autenticacao e Stripe para pagamentos.

O que foi mais dificil do que eu esperava

Algumas coisas me pegaram de surpresa:

Extracao de audio do video no servidor e mais trabalhosa do que parece. O comportamento do FFmpeg varia bastante dependendo do codec e do container.
Lidar com arquivos grandes em ambiente serverless exigiu repensar todo o fluxo de upload. Acabei processando em um worker dedicado para evitar problemas de timeout.
Precificacao. Gastei mais tempo do que gostaria decidindo como cobrar pelos creditos. Barato demais e a conta nao fecha. Caro demais e ninguem testa. Cheguei em tres faixas entre R $5 e R$ 40 e vou ajustar com base no que aprender.

O que eu nao fiz (ainda)

Sem identificacao de falantes (quem disse o que). Sem timestamps por palavra. Sem exportacao de legendas. Sem gravacao ao vivo. Tudo isso esta na lista, mas lancei sem essas funcionalidades de proposito — quero validar o caso de uso principal antes de expandir.

Por que estou postando aqui

Feedback honesto. Se voce trabalha com audio ou video no dia a dia — jornalismo, criacao de conteudo, pesquisa, educacao, area juridica ou medica — quero saber se isso resolve um problema real pra voce ou onde ainda falta.

Se testar, me conta o que quebrou, o que foi confuso ou o que voce sentiu falta. Isso vale mais pra mim agora do que qualquer metrica de trafego.

tonivox.com