Interessante. Apesar disso seria legal compartilhar qual a quantizacao voce usou e outra. A questão de janela de contexto e capacidade vai depender de quão livre você deixou a memória. Se você usar um modelo de 16gb realmente vai ter pouco para o contexto. A questão do tool calling vai depender de fine tuning e talvez modelos específicos, como por exemplo, gerar imagem precisa de um modelo especializado nisso. Mas é interessante pessoas compartilharem suas experiências assim pra termos mais comparativos reais e parar de depender só de empresas.

Honestamente, não fiz nenhuma manipulação ou customização para estar parâmetros de "quantização", rodei cru do jeito que é. É um mundo novo pra mim, eu gostaria de ver o quão rápido meu trabalho poderia evoluir com IA. 
Mas este mundo tem me agradado, e vou ver o que posso melhorar, com base nessa questão.

Interessante. Apesar disso seria legal compartilhar qual a quantizacao voce usou e outra. A questão de janela de contexto e capacidade vai depender de quão livre você deixou a memória. Se...

Interessante. Apesar disso seria legal compartilhar qual a quantizacao voce u... · filipeleonelbatista

Fiz algo quase parecido. Rodei ollama, fiz pull...