Meus 2 cents:
- Geralmente IA coorporativa envolve RAG/CAG - pesquise sobre estes assuntos.
RAG: Retrieval-Augmented Generation - R de recupecao: a ideia eh complementar o treinamento da IA com os documentos/assuntos que sejam pertinentes ao seu negocio. Isso diminui alucinacoes, uma vez que prove o conteudo que a IA precisa para gerar as respostas. Os documentos sao transformados em tokens/embendings, armazenados em um banco de dados e quando for gerado um prompt com a pergunta, estes tokens sao pesquisados e adcionados ao prompt inicial. A dificuldade aqui eh a eventual necessidade de fazer 're-ranking' para ver se os documentos/trechos selecionados realmente tem sentido na composicao da reposta.
CAG: Cache-Augmented Generation (CAG) - A mesma ideia do RAG, mas ao inves de apenas pesquisar no banco de dados, eh trazer TODOS os tokens/embeding de TODOS os documentos e acionar no prompt. Isso elimina a necessidade de re-rank, tende a tornar as respostas mais adequadas, mas torna o prompt muito maior (o que pode trazer problemas na janela de input de tokens ou mesmo na questao de custo).
Como usar no dia-a-dia nas suas aplicacoes:
Recomendo o anythingLLM - voce cria tua apliacao que precisa perguntar algo, mas ao inves de perguntar direto ao LLM, usa um intermediario (a API do anythingllm). Ele tem a vantagem de trazer o RAG e pode trocar dinamicamente qual o LLM que voce esta usando, sem modificar a aplicacao.
Fora isso, recomendo ainda colocar no meio mais um intermediario: p.ex. um api em flask - assim se precisar API direta em python (p.ex. langchain, langgraph) fica bem mais facil.
Outras opcoes sao o openrouter.ai (mas tem custo) e o LiteLLM.
O anythingllm e o litellm tem opcoes "self hosted" que rodam em docker (sem ter de pagar para terceiros - e sao leves).
Escrevi um pouco sobre IA aqui:
https://www.tabnews.com.br/Oletros/como-funciona-a-ia-bibliotecaria-e-cartomante
E por fim, estou analisando a questao de custo: no LLM de bigplayer voce paga por token - e quando falamos em ambiente coorporativo, como estimar os custos ?
Entao tennho analisado como funciona a gestao direta de LLM (p.ex. deepseek eh opensource, entre outros como o qwen). Ai pagaria apenas a hospedagem de cloud GPU (uma VPS com GPU - placa grafica). Isso garantiria um valor previsivel no final do mes (e mais facil criar um budget).
Vi algumas opcoes:
Lista de provedores
https://devinschumacher.github.io/cloud-gpu-servers-services-providers/
https://gist.github.com/devinschumacher/87dd5b87234f2d0e5dba56503bfba533
https://research.aimultiple.com/cloud-gpu-providers/
https://research.aimultiple.com/cloud-gpu/
Alguns deles
https://www.vultr.com/pricing/#cloud-gpu
https://www.hetzner.com/dedicated-rootserver/matrix-gpu/
https://lambda.ai/service/gpu-cloud#pricing
https://www.liquidweb.com/gpu-hosting/
https://www.gpu-mart.com/best-gpu-server
https://www.interserver.net/dedicated/gpu.html
https://www.runpod.io/pricing
https://www.cherryservers.com/dedicated-gpu-servers
https://gthost.com/gpu-dedicated-servers
https://app.primeintellect.ai/
https://vast.ai/pricing
https://marketplace.tensordock.com/deploy
https://www.shadeform.ai/#pricing
https://www.gputrader.io/
https://hyperbolic.xyz/blog/gpu-marketplace-landscape
https://www.coreweave.com/pricing
https://salad.com/pricing