Executando verificação de segurança...
6

IA corporativa local

Olá,
alguém aqui já tentou rodar um modelo de IA interno na própria infraestrutura? Em qual modelo vocês treinaram e quais frameworks usaram — Llama, Mistral, Qwen ou algo próprio? Seria interessante comparar experiências, porque por aqui já começamos a notar alguns pontos bem relevantes.

O tema fica ainda mais sensível quando falamos do setor de saúde. As restrições de dados são muito mais rígidas do que em outras áreas: diagnósticos, resultados de exames, protocolos clínicos, padrões internos — tudo é fortemente regulamentado. E, na prática, surgem várias outras dificuldades:

  1. A tendência do modelo de “inventar” fatos, mesmo quando treinado com materiais médicos verificados. As alucinações não desaparecem, especialmente quando o modelo tenta “generalizar” conteúdos de diferentes fontes.
  2. Alta sensibilidade à formulação das perguntas. Pequenas mudanças no enunciado podem levar o modelo a sugerir caminhos clínicos incorretos ou a interpretar de forma errada indicadores médicos.
  3. Dificuldade na limpeza e padronização dos dados. Documentação médica interna costuma ser pouco unificada: formatos diferentes, termos variados, abreviações inconsistentes… Preparar o dataset leva mais tempo do que o próprio treinamento.

Por isso, gostaria muito de ouvir a experiência de vocês.
Que modelo testaram? O que precisaram adaptar na infraestrutura? E, principalmente, com quais problemas reais vocês se depararam durante a implantação?

Esse é um tema em que o compartilhamento de experiências realmente ajuda a evitar erros caros.

Obrigada!

Deixo aqui alguns links úteis com mais detalhes sobre a implementação de IAs locais:
Exam
Nexuhub
UBD Blog

Carregando publicação patrocinada...
4

alguém aqui já tentou rodar um modelo de IA interno na própria infraestrutura? Em qual modelo vocês treinaram e quais frameworks usaram

Sim, mas não precisei usar treinamento ou framework.

Alguns modelos famosos já tem imagens docker disponibilizadas pela comunidade, já deixa a imagem pronta pra rodar e fazer solicitações via API.

Claro, isso serve principalmente para sistemas com um baixo volume de requests.

Para um sistema com alto volume de requests é necessário uma infraestrutura dedicada.

4

Hoje trabalho desenvolvendo agentes IA na empresa que trabalho, coisa que me levou a começar desenvolver meu próprio framework de geração baseado em prompt e algumas tools pre configuradas, que os agentes usam.

Se existe algo que aprendi nesse caminho, é que o modelo influencia na qualidade da resposta até um "certo ponto", mas se você quer aumentar a qualidade da resposta, você deve melhorar a qualidade do input, adicionar uma camada de reasoning e com certeza uma função busca com integração a livros/revistas medicas, que informam como cada doença atua.

Só de implementar o sistema de CoT (Chain of Thoughts - Cadeia de pensamento), já deve melhorar bastante o resultado dela, espero ter ajudado.

1

Obrigada pelo comentário detalhado — concordo plenamente com a ideia central. Também cheguei à conclusão de que a escolha do modelo (Llama / Mistral / Qwen, etc.) influencia a qualidade apenas até certo ponto. A partir daí, o fator limitante passa quase sempre a ser não o próprio modelo, mas a arquitetura que o envolve.

Isto é particularmente evidente na área da saúde. Mesmo com treino ou afinação baseados em fontes médicas validadas, o problema das alucinações não desaparece. Atualmente, estamos a concentrar-nos nos seguintes pontos:

  • Estruturação dos dados de entrada
  • Tentativa de controlo da camada de raciocínio
  • Normalização e padronização dos dados médicos, construindo o nosso próprio RAG
2

Aos que aqui manifestarem lições aprendidas, poderiam por gentileza dar uma ordem de grandeza quanto ao valor para montar uma infraestrutura local. Algo para entusiastas mesmo, não seria corporativo.