Rodando um RAG pronto pra produção sem nenhuma API (tudo local)
Fala galera!
Vocês já podem ter me visto aqui falando sobre o Skald, que é uma plataforma open-source de RAG.
Quando criamos o Skald, queríamos que ele fosse open-source, e que as pessoas pudessem fazer self-hosting na própria infra.
O problema disso é que um deploy self-hosted por si só não faz nada pra sua privacidade de dados. Num setup comum, vc manda seus dados pra uma plataforma gerar embeddings pra você, aí guarda elas numa vector DB na Cloud, e manda o conteúdo pra OpenAI gerar respostas.
Pra muita gente, inclusive pra vários casos de uso meus, isso tá tudo bem. Mas tem muita empresa por aí que precisa que tudo rode na própria infra, sem mandar os dados pra fora.
Por isso fizemos que fosse possível fazer um deploy do Skald totalmente local, inclusive sem acesso a internet se for preferível.
Ontem testei várias configurações diferentes pra ver se funcionava mesmo e me surpreendi. Dá pra ter um sistema muito bom que conecta com dados da sua empresa e te oferece ótimas respostas sem que vc mande dados pra ninguém, incluindo a OpenAI por exemplo.
Pra quem tiver interesse, ensinei o básico no post que vou deixar abaixo pra quem quiser fazer o mesmo, e fiz também um pouco de benchmarking.
https://blog.yakkomajuri.com/blog/local-rag
E se alguém preferir, pode falar comigo também que a gente te ajuda a fazer um deploy do Skald na sua empresa sem mandar dados pra ninguém, incluindo pra nós mesmos ;)
Abraço!