Pitch: Como usamos IA para transformar vídeos longos em Shorts virais: Whisper, MediaPipe e GPT-4
Estamos construindo o Shorts Factory — um editor de vídeos curtos com IA que transforma vídeos longos (podcasts, lives, aulas) em clipes virais para TikTok, Instagram Reels e YouTube Shorts.
Neste post, vou compartilhar a stack técnica por trás do projeto e os desafios que enfrentamos.
O Problema
Criar vídeos curtos a partir de conteúdo longo é extremamente trabalhoso. Um episódio de podcast de 1 hora leva 3-4 horas para ser editado manualmente: assistir tudo, encontrar os melhores momentos, cortar, enquadrar o rosto do speaker, adicionar legendas, exportar nos formatos certos.
Para criadores que produzem conteúdo diariamente, isso não escala.
Nossa Stack de IA
1. Transcrição com Whisper (OpenAI)
Usamos o Whisper para transcrição com precisão no nível de palavra. Isso é fundamental porque os cortes precisam ser sincronizados com a fala.
import whisper
model = whisper.load_model("medium")
result = model.transcribe("video.mp4", word_timestamps=True)
for segment in result["segments"]:
print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")
O Whisper suporta 99 idiomas — essencial para nós, já que operamos em 19 idiomas.
2. Face Tracking com MediaPipe
Para enquadrar automaticamente o speaker no formato 9:16 (vertical), usamos MediaPipe da Google:
import mediapipe as mp
mp_face = mp.solutions.face_detection
with mp_face.FaceDetection(min_detection_confidence=0.7) as detector:
results = detector.process(frame_rgb)
if results.detections:
bbox = results.detections[0].location_data.relative_bounding_box
center_x = bbox.xmin + bbox.width / 2
O desafio aqui é a suavização: sem smoothing, o crop fica "tremendo". Implementamos um filtro de média móvel para transições suaves.
3. Detecção de Highlights com GPT-4
Enviamos a transcrição para o GPT-4 que identifica os momentos mais impactantes baseado em picos emocionais, frases de impacto, humor e revelações surpreendentes.
4. Legendas Animadas + Clonagem de Voz
Geramos legendas word-by-word sincronizadas com o áudio (estilo CapCut/TikTok), e oferecemos dubbing multi-idioma com clonagem de voz.
SEO Multilíngue: 1.600 Páginas em 19 Idiomas
Indexamos mais de 1.600 páginas em 19 idiomas. Usamos uma estratégia de "flanking" — dominar mercados blue-ocean (TR, VI, HI, AR) antes de competir nos saturados (EN, ES). Resultado: CTR próximo de 100% nos mercados onde somos o único player.
Stack de infra: Hetzner VPS + Docker, Cloudflare, IndexNow, GSC + Bing Webmaster + Yandex + Naver.
Modelo de Negócio
Freemium com pay-per-minute. Free: 30 min/mês, 720p, com watermark. Pago: sem limites. Todas as features disponíveis no free — o gating é por volume e qualidade.
Resultados
Pipeline completo (transcrição > highlights > crop > legendas > export) em menos de 60 segundos para um clipe de 60s. Upload chunked até 10GB.
Se você trabalha com processamento de vídeo ou IA aplicada, adoraria trocar ideias. O projeto está em shortsfactory.app.