Estava fazendo algumas contas e cheguei a uma reflexão interessante sobre o uso de modelos como GPT‑4o mini para normalização de dados em massa.
Imagine o cenário:
Tenho um único CSV com 100 mil registros contendo dados simples de usuários:
(nome, email, phone, birthdate, bio)
Quero pedir ao modelo para normalizar esses dados para um novo padrão de saída.
1. Estimativa Realista de Tokens
Considerando um cenário otimista (bem otimista mesmo), cada linha teria em média:
~ 50 tokens de entrada
~ 40 tokens de saída
Isso leva aos números:
INPUT
100.000 registros × 50 tokens = 5.000.000 tokens
5M tokens × USD 0,15/M = USD 0,75
OUTPUT
100.000 registros × 40 tokens = 4.000.000 tokens
4M tokens × USD 0,60/M = USD 2,40
Custo Total por arquivo
USD 0,75 + USD 2,40 = USD 3,15
O Problema
Mesmo nesse cenário muito bonito, em que tudo está otimizado e as bios são curtas, isso ainda implica 3,15 dólares por arquivo.
Agora imagine isso em escala:
10 arquivos = USD 31,50
100 arquivos = USD 315,00
1.000 arquivos = USD 3.150,00
Ou seja: processar dados em massa via LLM fica caro muito rápido, especialmente quando envolve campos de texto como “bio”, que são imprevisíveis e facilmente explodem o número de tokens.
Usar um modelo para normalizar tabelas completas de dezenas ou centenas de milhares de registros parece inviável financeiramente, mesmo usando um modelo relativamente barato como o GPT‑4o mini.