LLMs não escolhem palavras
Você abre o ChatGPT, escreve alguma coisa.
Espera a resposta.
Gosta do resultado e pensa: “que legal, sábia escolha de palavras”.
Mas não.
O LLM não escolhe palavras. Ele reduz incerteza estatística.
Toda vez que você envia um prompt, o modelo gera tokens a partir desse contexto e prevê qual é o próximo token mais provável. E faz isso de forma iterativa, passo a passo.
Se você digita algo como:
“gosto muito de números, por isso a matéria que eu mais gostava na escola era”
O modelo constrói uma sequência de tokens e usa isso para estimar qual continuação faz mais sentido estatístico naquele contexto.
Observação: eu sei que tokens não são exatamente palavras, mas estou simplificando de propósito.
Nesse caso, para gerar contexto, o mecanismo de atenção tende a dar mais peso a termos como “gosto” e “números”, aumentando a probabilidade de o próximo token ser “matemática”.
É por isso que é tão difícil para um LLM ser realmente criativo.
A natureza dele é reduzir incerteza.
Seguir o caminho mais provável.
Ele não conecta ideias como um humano, não revisita pensamentos, não para para refletir se existe uma possibilidade completamente fora do padrão que ninguém nunca considerou.
Se você consegue extrair esse tipo de resultado usando LLMs, então o mérito é seu, não do modelo.
E uma dica final: oriente bem o seu modelo de linguagem.
LLMs desorientados costumam gerar mais problemas do que soluções.