Escrevi um pouco sobre esse assunto em https://uaiso-serious.github.io/infra/
Ia que presta pra rodar localmente é caro. Mas rodar chatbot que chama mcp com modelos llm pequenos como granite4 por exemplo é bem interessante.
Outro cenário é stable diffusion e outros modelos de geração de imagens ou tts são divertidos.
Nao tive boas experiências com geradores de código local com o hardware "fraco" que tenho, mas uma hora vão existir modelos llm pequenos e especificos. Exemplo um llm específico para java 21 e spring boot. Seria menor do que um genérico que sabe uma penca de linguagens e caberia em um hardware fraco.