Executando verificação de segurança...
0

Pitch: Passei meses construindo uma ferramenta de transcricao de video e lancei hoje — o que aprendi no caminho

Hoje lancei o Tonivox. A proposta e simples: voce faz upload de um video e recebe a transcricao completa em texto. Quero compartilhar o processo de forma honesta, incluindo o que foi mais dificil do que eu esperava.

O problema que eu queria resolver

Trabalho bastante com video. Entrevistas, reunioes gravadas, aulas online. Toda vez que precisava extrair o que foi dito, as opcoes eram: digitar manualmente (lento), usar as legendas automaticas do YouTube (imprecisas, e so funciona se voce subir o video la), ou pagar por ferramentas com assinatura mensal — mesmo nos meses em que eu mal usava.

Nenhuma dessas opcoes fazia sentido. Eu queria algo que cobrasse por uso, aceitasse qualquer arquivo de video e entregasse um resultado preciso — especialmente em portugues, que a maioria das ferramentas trata como segunda categoria.

O que eu construi

O Tonivox e uma aplicacao web. Voce faz upload de um arquivo de video (MP4, MOV, AVI, WebM — ate 60 minutos) e recebe a transcricao completa em texto simples em questao de segundos. Sem instalacao, sem assinatura mensal. Voce compra creditos e usa conforme transcreve.

O motor por baixo e o Whisper, da OpenAI, que lida bem com portugues e ingles. A stack e Next.js, Prisma, Better Auth para autenticacao e Stripe para pagamentos.

O que foi mais dificil do que eu esperava

Algumas coisas me pegaram de surpresa:

  • Extracao de audio do video no servidor e mais trabalhosa do que parece. O comportamento do FFmpeg varia bastante dependendo do codec e do container.
  • Lidar com arquivos grandes em ambiente serverless exigiu repensar todo o fluxo de upload. Acabei processando em um worker dedicado para evitar problemas de timeout.
  • Precificacao. Gastei mais tempo do que gostaria decidindo como cobrar pelos creditos. Barato demais e a conta nao fecha. Caro demais e ninguem testa. Cheguei em tres faixas entre R5 e R40 e vou ajustar com base no que aprender.

O que eu nao fiz (ainda)

Sem identificacao de falantes (quem disse o que). Sem timestamps por palavra. Sem exportacao de legendas. Sem gravacao ao vivo. Tudo isso esta na lista, mas lancei sem essas funcionalidades de proposito — quero validar o caso de uso principal antes de expandir.

Por que estou postando aqui

Feedback honesto. Se voce trabalha com audio ou video no dia a dia — jornalismo, criacao de conteudo, pesquisa, educacao, area juridica ou medica — quero saber se isso resolve um problema real pra voce ou onde ainda falta.

Se testar, me conta o que quebrou, o que foi confuso ou o que voce sentiu falta. Isso vale mais pra mim agora do que qualquer metrica de trafego.

tonivox.com

Carregando publicação patrocinada...
1

Alguns feedbacks da sua aplicação:

  1. O meu navegador está colocando o português como idioma aceito (Accept-language), mas a aplicação por default colocou em inglês. Seria interessante averiguar isso para já colocar no idioma do usuário ou o padrão (que nesse caso pode ser o inglês)
  2. Algumas aplicações parecidas ou deixam fazer um teste grátis de um vídeo bem pequeno ou já disponibilizam alguns vídeos já transcritos só pra mostrar como funciona (pode ser cadastrado também, não tem problema)
  3. Eu demorei por volta de uns 4~5 minutos para ver que meu cadastro foi concluído e até agora (6h27, comecei era 6h14) não recebi o email de confirmação (sim, não errei meu email).

Como ainda não consegui entrar, esse é o máximo de feedback que posso te dar