Executando verificação de segurança...
1

Pitch: Como usamos IA para transformar vídeos longos em Shorts virais: Whisper, MediaPipe e GPT-4

Estamos construindo o Shorts Factory — um editor de vídeos curtos com IA que transforma vídeos longos (podcasts, lives, aulas) em clipes virais para TikTok, Instagram Reels e YouTube Shorts.

Neste post, vou compartilhar a stack técnica por trás do projeto e os desafios que enfrentamos.

O Problema

Criar vídeos curtos a partir de conteúdo longo é extremamente trabalhoso. Um episódio de podcast de 1 hora leva 3-4 horas para ser editado manualmente: assistir tudo, encontrar os melhores momentos, cortar, enquadrar o rosto do speaker, adicionar legendas, exportar nos formatos certos.

Para criadores que produzem conteúdo diariamente, isso não escala.

Nossa Stack de IA

1. Transcrição com Whisper (OpenAI)

Usamos o Whisper para transcrição com precisão no nível de palavra. Isso é fundamental porque os cortes precisam ser sincronizados com a fala.

import whisper

model = whisper.load_model("medium")
result = model.transcribe("video.mp4", word_timestamps=True)

for segment in result["segments"]:
    print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")

O Whisper suporta 99 idiomas — essencial para nós, já que operamos em 19 idiomas.

2. Face Tracking com MediaPipe

Para enquadrar automaticamente o speaker no formato 9:16 (vertical), usamos MediaPipe da Google:

import mediapipe as mp

mp_face = mp.solutions.face_detection
with mp_face.FaceDetection(min_detection_confidence=0.7) as detector:
    results = detector.process(frame_rgb)
    if results.detections:
        bbox = results.detections[0].location_data.relative_bounding_box
        center_x = bbox.xmin + bbox.width / 2

O desafio aqui é a suavização: sem smoothing, o crop fica "tremendo". Implementamos um filtro de média móvel para transições suaves.

3. Detecção de Highlights com GPT-4

Enviamos a transcrição para o GPT-4 que identifica os momentos mais impactantes baseado em picos emocionais, frases de impacto, humor e revelações surpreendentes.

4. Legendas Animadas + Clonagem de Voz

Geramos legendas word-by-word sincronizadas com o áudio (estilo CapCut/TikTok), e oferecemos dubbing multi-idioma com clonagem de voz.

SEO Multilíngue: 1.600 Páginas em 19 Idiomas

Indexamos mais de 1.600 páginas em 19 idiomas. Usamos uma estratégia de "flanking" — dominar mercados blue-ocean (TR, VI, HI, AR) antes de competir nos saturados (EN, ES). Resultado: CTR próximo de 100% nos mercados onde somos o único player.

Stack de infra: Hetzner VPS + Docker, Cloudflare, IndexNow, GSC + Bing Webmaster + Yandex + Naver.

Modelo de Negócio

Freemium com pay-per-minute. Free: 30 min/mês, 720p, com watermark. Pago: sem limites. Todas as features disponíveis no free — o gating é por volume e qualidade.

Resultados

Pipeline completo (transcrição > highlights > crop > legendas > export) em menos de 60 segundos para um clipe de 60s. Upload chunked até 10GB.

Se você trabalha com processamento de vídeo ou IA aplicada, adoraria trocar ideias. O projeto está em shortsfactory.app.

Carregando publicação patrocinada...