Pitch: RAG rodando local ou com OpenAI/Openrouter
Criei um sistema onde você pode fazer perguntas sobre áudios e receber respostas baseadas no que foi realmente falado.
A ideia começou mais por curiosidade do que por estudo formal.
Eu já tinha visto algumas coisas sobre RAG, mas sempre naquele formato “mágico” de tutorial, sem entender muito bem o que estava acontecendo por baixo.
Então resolvi fazer diferente:
fui montando na prática, etapa por etapa, usando o GPT como apoio — mais explorando do que seguindo receita.
💡 Diferencial
Esse projeto não fica preso a um modelo ou provider.
Pode rodar:
- 100% local (Whisper + embeddings + LLM via Ollama)
- ou usando OpenAI / OpenRouter
👉 você escolhe entre controle total ou conveniência
Ou seja:
- os dados podem ficar na sua máquina
- ou você pode usar cloud quando fizer sentido
🧠 O que tem por baixo
- Transcrição de áudio
- Chunking de texto
- Embeddings semânticos
- Busca híbrida
- Query expansion
- Ranking com deduplicação
- Geração de resposta com contexto (RAG)
📦 Repositório
https://github.com/williammoreschi/rag-culto