Testando LLMs no Google Colab com ColabLLM
Você quer testar um chatbot, aí você vai até a OpenAI, cria uma conta, pega uma API key… e em poucos dias já consumiu créditos sem perceber.
Para projetos de estudo ou protótipos, isso é inviável. Você não quer pagar, quer experimentar.
A Solução: Sua Própria API de IA, de Graça
O ColabLLM é um script Python que transforma o Google Colab (com GPU T4 gratuita) num servidor de API privado, usando Ollama + FastAPI + Cloudflare Tunnel.
O resultado? Uma URL pública via HTTPS que funciona exatamente igual à API da OpenAI — só que rodando modelos open-source, no seu próprio ambiente, sem custo nenhum.
Você troca isso:
https://api.openai.com/v1
Por isso:
https://SUA_URL.trycloudflare.com/v1
E nenhuma outra linha do seu código muda.
Como Colocar pra Rodar (em 5 Passos)
Não precisa ser expert em infraestrutura. O setup inteiro leva menos de 15 minutos:
- Abra o Google Colab e ative a GPU T4 nas configurações de execução
- Cole o conteúdo do
colabllm.pynuma célula - Troque a senha padrão:
API_SECRET_KEY = "sua-senha-aqui" - Execute e aguarde ~10 min para baixar os modelos
- Copie a URL gerada e comece a usar
Pronto. Sua API está no ar, protegida por Bearer Token e acessível de qualquer lugar.
Que Modelos Você Pode Usar?
Tem um catálogo generoso de modelos open-source já configurados:
| O que você precisa | Modelo recomendado |
|---|---|
| Conversa geral em PT-BR | llama3.1:8b ou qwen2.5:7b |
| Criatividade e escrita | gemma2:9b |
| Ajuda com código | qwen2.5-coder:7b |
| Respostas ultra rápidas | llama3.2:3b |
| Matemática e lógica | deepseek-llm:7b |
| Múltiplos idiomas | aya:8b (23 idiomas) |
Você escolhe quais baixar editando uma única variável no script.
Funciona com o Código Que Você Já Tem
Como a API segue o padrão OpenAI, a integração é imediata — em Python, JavaScript ou qualquer linguagem:
from openai import OpenAI
client = OpenAI(
base_url="https://SUA_URL.trycloudflare.com/v1",
api_key="SUA_SENHA"
)
response = client.chat.completions.create(
model="gemma2:9b",
messages=[{"role": "user", "content": "O que é recursão?"}]
)
Streaming de respostas também é suportado nativamente — perfeito para interfaces de chat em tempo real.
Tem Algum Porém?
Sim, e é importante ser honesto:
- O Colab desconecta após ~90 min de inatividade — mantenha a aba aberta
- A URL muda a cada reinicialização do script
- Trocar de modelo tem um delay de 10–20s na primeira requisição
Isso faz do ColabLLM uma ferramenta perfeita para desenvolvimento e prototipagem, não para produção.
Para Quem Vale a Pena?
- Devs que querem testar integrações com LLM sem gastar nada
- Estudantes aprendendo sobre APIs de IA na prática
- Criadores de projetos pessoais que querem evitar cobranças surpresa
- Qualquer pessoa curiosa sobre modelos open-source
O projeto é open-source, licença MIT, livre para uso pessoal e comercial. Contribuições são bem-vindas.