Grokking não é sorte: Como usei Lógica Fuzzy para forçar a generalização em redes neurais
O fenômeno do Grokking é um dos comportamentos mais intrigantes (e irritantes) no treinamento de redes neurais em tarefas algorítmicas. Basicamente: o modelo atinge 100% de acurácia no treino quase instantaneamente, mas a validação fica estagnada no zero por milhares de épocas até que, do nada, a generalização acontece.
Do ponto de vista de engenharia, isso é um problema. Estamos deixando a generalização nas mãos de uma transição de fase estocástica, ou seja, sorte e tempo de computação.
O Problema: O Platô da Memorização
Quando treinamos modelos superparametrizados em datasets pequenos e estruturados, o gradiente tende a encontrar soluções de "atalho": o modelo memoriza os dados sem entender a regra lógica por trás deles. A minimização do risco empírico (o famoso Loss de treino) não é suficiente para garantir competência lógica.
A Solução: Regularização Semântica
Em vez de esperar que o modelo "descubra" a lógica por acaso, minha proposta é injetar o conhecimento de domínio diretamente na função de perda via Lógica Fuzzy Diferenciável.
- Lógica de Produto: Transformamos regras qualitativas em penalidades contínuas que o otimizador consegue entender.
- Controle Topológico: Essas restrições deformam o loss landscape, tornando os mínimos de memorização (que violam as regras) energeticamente desfavoráveis.
- Ancoramento de Dados: Um desafio comum é a "satisfação vácua", onde o modelo aprende a trapacear a lógica. Resolvemos isso forçando o aprendizado dos predicados através de uma perda supervisionada conjunta.
Resultados Práticos
Nos testes preliminares com detecção de fraudes algorítmicas, o uso dessa regularização semântica eliminou o platô de memorização. A generalização passou a ser um requisito explícito da otimização, e não um efeito colateral tardio.
Por que isso importa?
Se queremos sistemas de IA em ambientes de missão crítica, não podemos aceitar o "esperar para ver se ele entende". Precisamos de modelos que respeitem invariantes de domínio desde a primeira época.