Testando LLMs no Google Colab com ColabLLM · gmasson

Você quer testar um chatbot, aí você vai até a OpenAI, cria uma conta, pega uma API key… e em poucos dias já consumiu créditos sem perceber.

Para projetos de estudo ou protótipos, isso é inviável. Você não quer pagar, quer experimentar.

A Solução: Sua Própria API de IA, de Graça

O ColabLLM é um script Python que transforma o Google Colab (com GPU T4 gratuita) num servidor de API privado, usando Ollama + FastAPI + Cloudflare Tunnel.

O resultado? Uma URL pública via HTTPS que funciona exatamente igual à API da OpenAI — só que rodando modelos open-source, no seu próprio ambiente, sem custo nenhum.

Você troca isso:

https://api.openai.com/v1

Por isso:

https://SUA_URL.trycloudflare.com/v1

E nenhuma outra linha do seu código muda.

Como Colocar pra Rodar (em 5 Passos)

Não precisa ser expert em infraestrutura. O setup inteiro leva menos de 15 minutos:

Abra o Google Colab e ative a GPU T4 nas configurações de execução
Cole o conteúdo do colabllm.py numa célula
Troque a senha padrão: API_SECRET_KEY = "sua-senha-aqui"
Execute e aguarde ~10 min para baixar os modelos
Copie a URL gerada e comece a usar

Pronto. Sua API está no ar, protegida por Bearer Token e acessível de qualquer lugar.

Que Modelos Você Pode Usar?

Tem um catálogo generoso de modelos open-source já configurados:

O que você precisa	Modelo recomendado
Conversa geral em PT-BR	`llama3.1:8b` ou `qwen2.5:7b`
Criatividade e escrita	`gemma2:9b`
Ajuda com código	`qwen2.5-coder:7b`
Respostas ultra rápidas	`llama3.2:3b`
Matemática e lógica	`deepseek-llm:7b`
Múltiplos idiomas	`aya:8b` (23 idiomas)

Você escolhe quais baixar editando uma única variável no script.

Funciona com o Código Que Você Já Tem

Como a API segue o padrão OpenAI, a integração é imediata — em Python, JavaScript ou qualquer linguagem:

from openai import OpenAI

client = OpenAI(
    base_url="https://SUA_URL.trycloudflare.com/v1",
    api_key="SUA_SENHA"
)

response = client.chat.completions.create(
    model="gemma2:9b",
    messages=[{"role": "user", "content": "O que é recursão?"}]
)

Streaming de respostas também é suportado nativamente — perfeito para interfaces de chat em tempo real.

Tem Algum Porém?

Sim, e é importante ser honesto:

O Colab desconecta após ~90 min de inatividade — mantenha a aba aberta
A URL muda a cada reinicialização do script
Trocar de modelo tem um delay de 10–20s na primeira requisição

Isso faz do ColabLLM uma ferramenta perfeita para desenvolvimento e prototipagem, não para produção.

Para Quem Vale a Pena?

Devs que querem testar integrações com LLM sem gastar nada
Estudantes aprendendo sobre APIs de IA na prática
Criadores de projetos pessoais que querem evitar cobranças surpresa
Qualquer pessoa curiosa sobre modelos open-source

O projeto é open-source, licença MIT, livre para uso pessoal e comercial. Contribuições são bem-vindas.