Como rodar LLM Local utilizando o Ollama · flmendes

Olá pessoal, vou apresentar duas formas simples de rodar LLMs em uma máquina local.

Assim, você aprende de forma prática e ainda te dar a possibilidade de utilizar LLMs Open Source com ou sem censura.

Opções Disponíveis

Se você possui um computador Linux ou Mac, eu recomendo que você faça o download e instale o Ollama(https://ollama.ai/), eu utilizo e gosto bastante da performance apresentada.

Agora se você utiliza um computador windows eu recomendo que você instale o LM Studio(https://lmstudio.ai/), esse não tenho muito o que falar pois a instalação é muito simples.

Instalando do Ollama

Faça o download do Ollma e instale no seu computador através do link https://ollama.ai/, após a instalação o Ollama fica rodando em modo servidor e está pronto pra receber requisições na porta 114344 caso isso não aconteça basta executar o comando.

ollama serve

Os argumentos do programa ollama são bem simples e lembra um pouco o Docker.

run -> executa um modelo
serve -> inicia o ollama
create -> cria um modelo com base em um Modelfile
pull -> puxa um modelo do repositório.

Bom, agora vamos conversar com algum modelo, eu utilizo a versão dolpin-mixtral sem censura https://ollama.ai/library/dolphin-mixtral pra fazer download do modelo basta executar o seguinte comando:

ollama run dolphin-mixtral

Pronto, utilize como moderação.

Como rodar utilizando o Docker

Somente via CPU

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Com GPU Nvidia

Primeiro instale o Nvidia container toolkit e depois rode o seguinte comando:

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Interface web estilo ChatGPT

O Ollama também possui um interface web estilo ChatGPT que você utilizar via Docker, através do seguinte comando:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name ollama-webui --restart always ghcr.io/ollama-webui/ollama-webui:main

Pronto agora basta acessar o endereço http://localhost:8000 e conversar com o seu modelo.