Meus 2 cents: Geralmente IA coorporativa envolve RAG/CAG - pesquise sobre est... · Oletros

Meus 2 cents:

Geralmente IA coorporativa envolve RAG/CAG - pesquise sobre estes assuntos.

RAG: Retrieval-Augmented Generation - R de recupecao: a ideia eh complementar o treinamento da IA com os documentos/assuntos que sejam pertinentes ao seu negocio. Isso diminui alucinacoes, uma vez que prove o conteudo que a IA precisa para gerar as respostas. Os documentos sao transformados em tokens/embendings, armazenados em um banco de dados e quando for gerado um prompt com a pergunta, estes tokens sao pesquisados e adcionados ao prompt inicial. A dificuldade aqui eh a eventual necessidade de fazer 're-ranking' para ver se os documentos/trechos selecionados realmente tem sentido na composicao da reposta.

CAG: Cache-Augmented Generation (CAG) - A mesma ideia do RAG, mas ao inves de apenas pesquisar no banco de dados, eh trazer TODOS os tokens/embeding de TODOS os documentos e acionar no prompt. Isso elimina a necessidade de re-rank, tende a tornar as respostas mais adequadas, mas torna o prompt muito maior (o que pode trazer problemas na janela de input de tokens ou mesmo na questao de custo).

Como usar no dia-a-dia nas suas aplicacoes:

Recomendo o anythingLLM - voce cria tua apliacao que precisa perguntar algo, mas ao inves de perguntar direto ao LLM, usa um intermediario (a API do anythingllm). Ele tem a vantagem de trazer o RAG e pode trocar dinamicamente qual o LLM que voce esta usando, sem modificar a aplicacao.

Fora isso, recomendo ainda colocar no meio mais um intermediario: p.ex. um api em flask - assim se precisar API direta em python (p.ex. langchain, langgraph) fica bem mais facil.

Outras opcoes sao o openrouter.ai (mas tem custo) e o LiteLLM.

O anythingllm e o litellm tem opcoes "self hosted" que rodam em docker (sem ter de pagar para terceiros - e sao leves).

Escrevi um pouco sobre IA aqui:

https://www.tabnews.com.br/Oletros/como-funciona-a-ia-bibliotecaria-e-cartomante

E por fim, estou analisando a questao de custo: no LLM de bigplayer voce paga por token - e quando falamos em ambiente coorporativo, como estimar os custos ?

Entao tennho analisado como funciona a gestao direta de LLM (p.ex. deepseek eh opensource, entre outros como o qwen). Ai pagaria apenas a hospedagem de cloud GPU (uma VPS com GPU - placa grafica). Isso garantiria um valor previsivel no final do mes (e mais facil criar um budget).

Vi algumas opcoes:

Lista de provedores

https://devinschumacher.github.io/cloud-gpu-servers-services-providers/
https://gist.github.com/devinschumacher/87dd5b87234f2d0e5dba56503bfba533
https://research.aimultiple.com/cloud-gpu-providers/
https://research.aimultiple.com/cloud-gpu/

Alguns deles

https://www.vultr.com/pricing/#cloud-gpu
https://www.hetzner.com/dedicated-rootserver/matrix-gpu/
https://lambda.ai/service/gpu-cloud#pricing
https://www.liquidweb.com/gpu-hosting/
https://www.gpu-mart.com/best-gpu-server

https://www.interserver.net/dedicated/gpu.html
https://www.runpod.io/pricing
https://www.cherryservers.com/dedicated-gpu-servers
https://gthost.com/gpu-dedicated-servers
https://app.primeintellect.ai/
https://vast.ai/pricing
https://marketplace.tensordock.com/deploy
https://www.shadeform.ai/#pricing
https://www.gputrader.io/
https://hyperbolic.xyz/blog/gpu-marketplace-landscape
https://www.coreweave.com/pricing
https://salad.com/pricing