Muito bom ver a especialização vencendo o tamanho bruto! 102k params rodando em CPU vs 70B em GPU é exatamente o tipo de trade-off que importa em produção. Parabéns pela implementação limpa e pelos benchmarks claros.

Muito obrigado, Lucas! Exatamente, esse era o ponto central que eu vejo. LLMs são generalistas e muito bons em várias coisas, mas acabam perdendo para redes especializadas, muito mais baratas e menores, em vários campos. Eu penso que é interessante saber e entender todas essas nuances para um uso melhor da ia.

Muito bom ver a especialização vencendo o tamanho bruto! 102k params rodando em CPU vs 70B em GPU é exatamente o tipo de trade-off que importa em produção. Parabéns pela implementação lim...