Executando verificação de segurança...
12

Criei uma plataforma para normalização de CSVs que é 30x mais rápida do que o Excel

Estava conversando com um amigo CTO que é a única pessoa técnica da empresa dele e ele me contou que a empresa estava usando o equivalente de um dia de trabalho por semana convertendo CSVs de clientes para o formato interno de dados deles.

Os clientes deles mandam dumps de CSVs que eles precisam importar, e esses dumps muitas vezes são tão diferentes do formato esperado por eles que alguém do time de Sales passava um dia fazendo operações complexas no Excel e aí ainda precisava com frequência que ele como CTO terminasse o trabalho em Python.

Perguntei o porquê deles não só usarem ferramentas de IA como GPT ou Claude pra fazer isso e eles me falaram que com essas ferramentas o ciclo é muito demorado, e é difícil validar que foi feita a coisa certa.

A IA gera código que as pessoas não-técnicas não conseguem validar, e aí depois de alguns minutos vem um arquivo CSV que eles tem que abrir no Excel que muitas vezes demora muito tempo também (arquivos com milhões de linhas), só pra abrir uma aba com os dados originais e uma com os normalizados e tentar ver se a transformação foi feita corretamente.

Então criei uma ferramenta que cortou esse tempo pra eles de uma média de 8h para a primeira CSV de um cliente para ~15min. O que ela faz é usar de um agente de IA para analisar os dados e o modelo alvo para a normalização e ir fazendo perguntas pro usuário sobre dúvidas que ela tem. Aí quando o agente entende melhor a transformação, ele gera um código Python por trás dos panos que roda numa sandbox, transforma os dados, e exibe para o usuário. Aí vem a feature que eles mais precisavam: poder auditar a transformação. Você clica em uma célula na tabela transformada e a plataforma te mostra exatamente de onde ela puxou os dados que compuseram essa célula e a transformação que foi feita.

Além disso, trabalhei muito em cima da eficiência, e a plataforma funciona mesmo com milhões de linhas na tabela.

Eles gostaram tanto que estou agora pensando em lançar publicamente e adoraria ter mais Alpha testers para dar feedback.

Tem uma landing page aqui: https://spreadsheets.skaldlabs.io/ e se alguém tiver interesse só me falar!

Carregando publicação patrocinada...
3

Achei uma ideia incrível, e funcional. Mais legal saber que não é a IA que ta gerando tudo isso normalizado o que diminui drasticamente o custo. Parabéns!

0
2
0
1

Estava fazendo algumas contas e cheguei a uma reflexão interessante sobre o uso de modelos como GPT‑4o mini para normalização de dados em massa.

Imagine o cenário:

Tenho um único CSV com 100 mil registros contendo dados simples de usuários:

(nome, email, phone, birthdate, bio)

Quero pedir ao modelo para normalizar esses dados para um novo padrão de saída.

1. Estimativa Realista de Tokens
Considerando um cenário otimista (bem otimista mesmo), cada linha teria em média:
~ 50 tokens de entrada
~ 40 tokens de saída

Isso leva aos números:

INPUT
100.000 registros × 50 tokens = 5.000.000 tokens
5M tokens × USD 0,15/M = USD 0,75

OUTPUT
100.000 registros × 40 tokens = 4.000.000 tokens
4M tokens × USD 0,60/M = USD 2,40

Custo Total por arquivo
USD 0,75 + USD 2,40 = USD 3,15

O Problema
Mesmo nesse cenário muito bonito, em que tudo está otimizado e as bios são curtas, isso ainda implica 3,15 dólares por arquivo.

Agora imagine isso em escala:

10 arquivos = USD 31,50
100 arquivos = USD 315,00
1.000 arquivos = USD 3.150,00

Ou seja: processar dados em massa via LLM fica caro muito rápido, especialmente quando envolve campos de texto como “bio”, que são imprevisíveis e facilmente explodem o número de tokens.

Usar um modelo para normalizar tabelas completas de dezenas ou centenas de milhares de registros parece inviável financeiramente, mesmo usando um modelo relativamente barato como o GPT‑4o mini.

2

Opa, boas reflexões! Mas na verdade você não deveria utilizar uma LLM pra fazer essa transformação não, de maneira alguma.

A LLM é usada pra gerar código que roda em uma sandbox pra transformar a tabela, não pra gerar o novo arquivo em si. Isso além de caro como você falou, seria muito lento e também teria muita chance de alucinar.

A chave da coisa é oferecer para a LLM o contexto necessário sobre os dados, dados de exemplo, e ferramentas para que ela possa rodar código, verificar o resultado, e continuar o processo.

Mas no fim das contas o output é código, que você depois pode rodar deterministicamente em arquivos do mesmo formato.