Executando verificação de segurança...
25

Rodando IA local no seu PC (mesmo com 8GB RAM) — sem hype

Nos últimos tempos, ficou difícil ignorar:

  • Cloud AI está ficando caro
  • Free tiers estão cada vez mais limitados
  • Ferramentas que antes eram acessíveis agora têm barreiras

Isso levanta uma pergunta prática para quem desenvolve:

Vale a pena rodar IA localmente?

Resolvi testar isso na prática — com um setup simples:

  • i5
  • 8GB de RAM
  • Sem GPU dedicada

E o objetivo não era competir com GPT.
Era entender até onde dá pra ir.


A ideia: IA local como ferramenta, não como substituta

A primeira coisa que fica clara:

IA local não substitui modelos grandes.

Mas ela pode:

  • Ajudar em tarefas simples
  • Servir como base para ferramentas locais
  • Reduzir dependência de API
  • Ajudar a entender como LLMs funcionam

O stack que usei

Pra montar o ambiente, usei:

  • Ollama → para rodar modelos localmente
  • DeepSeek Coder → modelo focado em código
  • Docker → para isolar e organizar o ambiente
  • Open WebUI → interface estilo ChatGPT

A ideia foi montar algo que qualquer dev consiga replicar.


Rodando o Ollama

Depois de instalar o Ollama, basta subir o servidor:

ollama serve

Isso expõe uma API local.

Depois, você baixa um modelo:

ollama run deepseek-coder:1.3b-base-q4_0

Esse modelo é quantizado.


O que são modelos quantizados (e por que isso importa)

Modelos quantizados são versões comprimidas de LLMs.

Na prática:

  • Menor uso de memória
  • Mais rápidos para carregar
  • Menos precisos

Exemplo real:

  • Modelo original → dezenas de GB
  • Modelo quantizado → ~700MB

Isso permite rodar em máquina simples.

Mas o custo é claro: qualidade.


Rodando offline (de verdade)

Um dos pontos mais interessantes:

Depois que o modelo está baixado, você pode literalmente desligar a internet.

E ele continua funcionando.

Isso significa:

  • Privacidade total
  • Zero custo por requisição
  • Independência de serviços externos

Testando na prática

Pedi algo simples:

“Crie um hello world em JavaScript”

Ele responde.

Mas quando começo a exigir mais:

  • Código com lógica
  • Alterações em cima do resultado
  • Funções mais específicas

Começam os problemas.


Limitações reais (sem romantizar)

Aqui é onde muita gente erra: acha que vai substituir GPT.

Não vai.

Na prática:

  • Respostas inconsistentes
  • Código às vezes incorreto
  • Falta de contexto
  • Lentidão (principalmente sem GPU)

Teve casos onde:

  • Ele esqueceu aspas
  • Criou funções inexistentes
  • Se perdeu no contexto

Performance em máquina simples

Rodando em:

  • i5
  • 8GB RAM
  • Sem GPU

Você percebe:

  • Alta latência
  • Uso pesado de RAM
  • Baixa concorrência

Se estiver gravando tela ou rodando Docker, piora.


Docker + WebUI: tornando utilizável

Rodar via terminal funciona, mas não é prático.

Então subi com Docker:

  • Container do Ollama
  • Container do Open WebUI
  • Comunicação interna entre eles

Com isso, você ganha:

  • Interface estilo ChatGPT
  • Histórico de conversas
  • Facilidade de uso

Acesso via:

http://localhost:3000

Onde isso realmente faz sentido

Depois dos testes, o melhor uso ficou claro:

👉 Autocomplete local

Porque:

  • Não precisa de respostas perfeitas
  • Precisa de baixa latência (relativa)
  • Pode trabalhar com contexto pequeno

E é exatamente isso que pretendo explorar no próximo conteúdo.


O principal aprendizado

Rodar IA local muda sua percepção.

Você começa a entender:

  • O custo computacional real
  • Por que modelos grandes são caros
  • Como escrever prompts melhores
  • Limitações reais da tecnologia

Você para de tratar IA como “caixa mágica”.


Conclusão

IA local não é substituta da cloud.

Mas é:

  • Uma ferramenta útil
  • Um ótimo laboratório
  • Um diferencial técnico

Principalmente pra quem quer ir além do uso básico.


🎥 Assista o vídeo completo (vale ver o passo a passo)

Se você quiser replicar esse ambiente ou entender melhor na prática:

👉 https://youtu.be/BcDSMdqa2hQ


💬 Bora discutir?

Você já tentou rodar IA local?

  • Valeu a pena?
  • Em que cenário você usaria?
  • Acha que isso evolui ou continua nichado?

Comenta aí — quero ver como a galera está usando isso na prática.


🔗 Me acompanhe e veja mais conteúdos como esse

📸 Instagram
https://instagram.com/filipeleonelbatista

🎥 YouTube
https://youtube.com/@filipeleonelbatista

💼 LinkedIn
https://linkedin.com/in/filipeleonelbatista

💻 GitHub
https://github.com/filipeleonelbatista

🌐 Site / GitHub Pages
https://filipeleonelbatista.github.io/

Carregando publicação patrocinada...
6

Só um detalhe que você deveria explicar: o deepseek-coder1.3 tem mais de 2 anos de lançamento. Pela evolução de 2 anos pra cá, não creio que uma comparação dele com qualquer coisa atual seja válida.

2

Eu tava estudando isso agora. Eu tava tão empolgado que rodou que só queria mostra kkkk. Mas to preparando um benchmark talves de alguns modelos e pretendo levar isso em consideração.

1
3

Fiz algo quase parecido.
Rodei ollama, fiz pull de alguns modelos e fui testando.

Os modelos:

  1. deepseek-coder:6.7b -: começou muito bem, de repente começou a alucinar, eu dava instrução: Crie a entidade XPTO, fez as classes(Produto.java, ProdutoRepository, ProdutoService e ProdutoController), no dia seguinte pra próxima entidade, já alucinou
    2.qwen2.5-coder:7b - Já começou travando.
    3.qwen2.5-coder:3b - Não completava as tarefas.

Um detalhe, eu uso Aider como assistente de código, e nos meus projetos passava contexto, vários arquivos .MD explicando o que fazer.

E minha máquina é um i5 8400, GTX 1060 6gb, 16gb ram. Em tese deveriam rodar razoável na placa de vídeo, mas a alegria durou pouco, as opções 1, 2 começaram a fugir das ideias com o tempo e a opção 3, foi pior.
E eu via o trabalho delas no monitor da placa de vídeo, pra ter certeza que não estava usando CPU.

No fim das contas, apontei o Aider pra uma api gratuita. E foi show de bola.
Fui passando essa questão de criar por entidade, fui pedindo pra criar os testes na sequência. E teve um ponto que achei que já era possível, passar a instrução, " crie o que falta no projeto" , dito e feito.

Testei algumas coisas e tive poucos pontos de correção, não terminei, mas estou indo aos poucos.

Sobre o Aider: A proposta é pair programing, ele tem capacidade de editar arquivos no projeto, pergunta tudo o que vai fazer, tem opção de commits, achei bom.

Obs: Rodo no Ubuntu

1

Interessante. Apesar disso seria legal compartilhar qual a quantizacao voce usou e outra. A questão de janela de contexto e capacidade vai depender de quão livre você deixou a memória. Se você usar um modelo de 16gb realmente vai ter pouco para o contexto. A questão do tool calling vai depender de fine tuning e talvez modelos específicos, como por exemplo, gerar imagem precisa de um modelo especializado nisso. Mas é interessante pessoas compartilharem suas experiências assim pra termos mais comparativos reais e parar de depender só de empresas.

1

Honestamente, não fiz nenhuma manipulação ou customização para estar parâmetros de "quantização", rodei cru do jeito que é. É um mundo novo pra mim, eu gostaria de ver o quão rápido meu trabalho poderia evoluir com IA.
Mas este mundo tem me agradado, e vou ver o que posso melhorar, com base nessa questão.

1

Meus 2 cents,

Parabens pela iniciativa !

Eh sempre interessante acompanhar projetos reais usando a tecnologia.

Para quem gosta de brincar com modelos, testando o que da para rodar local ou nao - e nao tem GPU, uma opcao eh o Google COLAB:

  • Gratuito (quota de tempo)
  • TPU de 16Gb VRAM (o equivalente de GPU do Google)
  • 16Gb de RAM

Como tem acesso "root", da para conectar a sua maquina local via VPN e dai conectar em um agente tambem local (p.ex. OpenClaw, etc) ou em um "hub" (p.ex. OmniRoute).

Falei um pouco sobre isso aqui: CAPÍTULO 9: RODANDO LLM COM GOOGLE COLAB, OPENROUTER, CLOUD GPU E SOBRE A QUANTIZAÇÃO

Enfim, da para fazer muita coisa.

Saude e Sucesso !


Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

2

Nice. Apesar de ja ter usado, eu acredito que para a proposta que eu queria não iria servir tanto, mas com certeza é uma excelente opção.

Outro ponto que da pra explorar bastante é o Open Web UI usando chaves de API gratuitas, ou com free tier generoso como Gemini, ou o Zen da Opencode e outras.

Mas o COLAB realmente é uma sacada interessante...

1
1

Então mano, estou fazendo usando o ollama e testando o que roda em um pc fraco, mas pelas configs talvez rode também no android. Vou testar futuramente. Gostei da sua pegada de analisar a parte de ram e tudo mais...

1

Puts que baita conteúdo útil!

Eu to tentando adicionar i.a no meu dia a dia pra produzir mais só que travei exatamente na parte de automação, eu queria usar como um assistente de código básico sabe como o CLI do gemini e outros, ocorre que eu não consegui fazer ela gerar ou gerenciar arquivos via cli, você tem alguma sugestão ?

1

Alguns projetos bem interessantes que tenho acompanhado seguem nessa direção:

  • TinyRecursiveModels (SamsungSAILMontreal): parte da premissa de que "less is more" — uma rede de apenas 7 milhões de parâmetros, aplicando raciocínio recursivo sobre si mesma, alcança 45% de acurácia no ARC-AGI-1, um resultado que rivaliza com modelos milhares de vezes maiores. Isso mostra que tamanho não é tudo quando se trata de capacidade de raciocínio.

  • RLM (Recursive Language Models, alexzhang13): um framework de inferência que trata prompts longos como um ambiente externo, permitindo que o modelo examine, decomponha e recursivamente chame a si mesmo sobre partes do texto. O resultado? Processamento de contextos virtualmente infinitos e ganhos expressivos em tarefas que exigem raciocínio sobre documentos longos.

  • Ouro 1.4B (ByteDance): um modelo looped de 1,4 bilhão de parâmetros que, através de computação iterativa com pesos compartilhados, alcança desempenho equivalente a modelos de 3-4B parâmetros e até ao nível de SOTAs de 12B. A vantagem não está em armazenar mais conhecimento, mas em manipulá-lo de forma mais inteligente.

Outro modelo que é realmente muito impressionante, é o Qwen3.5 0.8b... Eu diria que compete com modelos maiores como o Gemma 4 E2B e E4B em alguns casos... Se algum iluminado unisse alguma destas tecnicas que a galera está utilizando a um modelo como esse, acho que teriamos uma opção bem interessante para rodar localmente até mesmo para tarefas mais complexas!

1

Tenho utilizado IA local faz um tempo. Realmente é uma ótima opção, entendendo as limitações é claro.

Meu setup atual tenho 16gb de ram. Utilizo LMStudio - mais fácil de configurar - e os modelos Qwen 3.5 9B, Gemma 4 E4B e Ministral 3B.

O que funciona bem:

  • Conversação
  • Refatorações simples
  • Resumo de documentos
  • Transcrição de imagens (Ministral 3B principalmente)

Com hardware tipo esse é o limite que vai conseguir alcançar. Uso de agentes, esquece! Menos de 50 tok/s é sofrível.

Com uma GPU, a situação melhora muito. Já dá pra começar a brincar com modelos maiores MoE, tipo o Qwen 3.6 35B.

Para quants, recomendo os do Unsloth. A documentação é bem boa e tem quants de basicamente todos os modelos abertos.

1