Estava fazendo algumas contas e cheguei a uma reflexão interessante sobre o u... · jpsdm

Em resposta a Criei uma plataforma para normalização de CSVs que é 30x mais rápida do que o Excel

Estava fazendo algumas contas e cheguei a uma reflexão interessante sobre o uso de modelos como GPT‑4o mini para normalização de dados em massa.

Imagine o cenário:

Tenho um único CSV com 100 mil registros contendo dados simples de usuários:

(nome, email, phone, birthdate, bio)

Quero pedir ao modelo para normalizar esses dados para um novo padrão de saída.

1. Estimativa Realista de Tokens
Considerando um cenário otimista (bem otimista mesmo), cada linha teria em média:
~ 50 tokens de entrada
~ 40 tokens de saída

Isso leva aos números:

INPUT
100.000 registros × 50 tokens = 5.000.000 tokens
5M tokens × USD 0,15/M = USD 0,75

OUTPUT
100.000 registros × 40 tokens = 4.000.000 tokens
4M tokens × USD 0,60/M = USD 2,40

Custo Total por arquivo
USD 0,75 + USD 2,40 = USD 3,15

O Problema
Mesmo nesse cenário muito bonito, em que tudo está otimizado e as bios são curtas, isso ainda implica 3,15 dólares por arquivo.

Agora imagine isso em escala:

10 arquivos = USD 31,50
100 arquivos = USD 315,00
1.000 arquivos = USD 3.150,00

Ou seja: processar dados em massa via LLM fica caro muito rápido, especialmente quando envolve campos de texto como “bio”, que são imprevisíveis e facilmente explodem o número de tokens.

Usar um modelo para normalizar tabelas completas de dezenas ou centenas de milhares de registros parece inviável financeiramente, mesmo usando um modelo relativamente barato como o GPT‑4o mini.

yakko

2 meses atrás

Opa, boas reflexões! Mas na verdade você não deveria utilizar uma LLM pra fazer essa transformação não, de maneira alguma.

A LLM é usada pra gerar código que roda em uma sandbox pra transformar a tabela, não pra gerar o novo arquivo em si. Isso além de caro como você falou, seria muito lento e também teria muita chance de alucinar.

A chave da coisa é oferecer para a LLM o contexto necessário sobre os dados, dados de exemplo, e ferramentas para que ela possa rodar código, verificar o resultado, e continuar o processo.

Mas no fim das contas o output é código, que você depois pode rodar deterministicamente em arquivos do mesmo formato.