Meus 2 cents, Fiquei com algumas duvidas quanto a tech/stack - caso nao seja... · Oletros

Em resposta a [BETA] Tramposdev no ar

Oletros

6 meses atrás

Meus 2 cents,

Fiquei com algumas duvidas quanto a tech/stack - caso nao seja segredo, se puder esclarecer agradeco.

Treinamento de IA: Voce cita "..dedicada pra treinar e executar os modelos localmente..." e "...desenvolvendo modelos privados...".

No caso, voces estao de fato treinando modelos (seja do zero ou via finetunning) ou estao usando apenas RAG/CAG ?

Minha questao eh que vejo poucas pessoas (principalmente Brasil) investindo em treinamento de IA por conta do custo e tempo (exceto em situacoes bem especificas), sendo que o RAG/CAG geralmente resolve da mesma forma (e com uma fracao do custo).
RTX Dedicada: Voce esta usando uma VPS com GPU ou GPU de um servidor local ? Pergunto por conta das particularidades de cada opcao.

A VPS com GPU eh mais eficiente - mas tem um custo fixo que geralmente so eh coberto em casos que a demanda justifique (ou que a privacidade de dados exija).

Ja a GPU local tem a questao de desempenho - os tokens/seg podem ser um limitador quando a demanda aumenta.

Existem opcoes como o Wool Ball - com processamento distribuido (e como voce fala em "...doar capacidade ociosa..." me pareceu que seguiu este caminho.

Parabens pelo projeto !

Obrigado por compartilhar - e esperando ter mais noticias positivias sobre o andamento dele ! Saude e Sucesso !

gregserrao

6 meses atrás

Falae cara blza? Respondendo as suas perguntas.

Nos estamos treinando mesmo um AI, porem isso tem um custo de processamento bem pesado, o que fizemos foi, alugar um GPU A100 por algumas horas na vast.ai para poder acelerar o treinamento inicial. O problema aqui foi que tem um custo por hora, algo em torno de $1.20, o que acaba inviabilizando o treinamento continuo por questoes de custo. Apos isso estamos utilizando RAG para ser mais preciso. Nao eh o ideial, mas considerando o hardware que temos vs performance foi a melhor escolha. A ideia eh de alguma forma conseguir sponsors que topem investir nos custos desse processamento.

A RTX esta instalada em um servidor xeon local. Justamente, o custo em muitos providers acaba sendo por hora, entao no nosso caso resolvemos comprar uma GPU e pagar uma vez, sendo que dali pra frente, so gastamos com energia. Claro que perdemos o poder de escala, mas tendo em vista que esse tipo de processamento ainda eh caro, para nos foi a melhor solucao em termos de custo beneficio.

Sim a nossa GPU nao roda modelos tao abrangentes, estamos limitados aos 13B, mas a nossa ideia eh poder tirar o maximo de desenpenho uma vez que estamos trabalhando em otimizacao, mas claro, isso sempre sera um limitante. Mas seguimos esse caminho para nao ter surpresas na fatura de um provedor cloud da vida.

Valeu, acredito que seja um projeto que possa ajudar os devs nao ficarem perdendo tempo na hora de buscar as vagas, sem contar que a medida que AI evolui podemos melhorar a assertividade de vagas fantasmas e alertar a comunidade.

Oletros

Autor

6 meses atrás

Mais alguns cents,

Obrigado pelas respostas - esclareceu diversos pontos !

Sobre a limitacao dos modelos (13B) - como voce citou um pouco antes que acabou indo para o RAG, o fato de ser um modelo menor nem impacta tanto ja que o LLM eh usado basicamente para montar a resposta baseado nos dados obtidos pela busca semantica/vetorial e eventualmente por um sistema de ranqueamento.

Uma ideia talvez seja buscar LLMs ja treinados em pt-br, p.ex.

https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it

https://huggingface.co/firstpixel/F5-TTS-pt-br

https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1

https://huggingface.co/recogna-nlp/bode-13b-alpaca-pt-br

Parabens pelo projeto - Saude e Sucesso !!!