Tiny Recursive Model (TRM) - Less is More
TL;DR
O texto apresenta o Tiny Recursive Model (TRM), uma abordagem simplificada e mais eficiente para modelos de raciocínio recursivo que supera o complexo Hierarchical Reasoning Model (HRM). O TRM utiliza uma única rede neural minúscula para aprimorar progressivamente uma resposta ao recursivamente refinar uma feature latente (z), que representa o raciocínio, e a resposta (y), que representa a solução proposta. Ao contrário do HRM, o TRM elimina a necessidade de argumentos biológicos complexos ou do Teorema da Função Implícita para a aproximação de gradiente, além de reduzir o número de parâmetros e otimizar o processo de treinamento, incluindo um mecanismo de Adaptive Computational Time (ACT) simplificado. O artigo demonstra que o TRM alcança uma generalização significativamente maior em tarefas difíceis como Sudoku, Maze e ARC-AGI, utilizando apenas uma fração dos parâmetros dos modelos concorrentes, incluindo Large Language Models (LLMs).
Explicando mais um pouco
O artigo "Less is More: Recursive Reasoning with Tiny Networks" propõe o Tiny Recursive Model (TRM), uma abordagem de raciocínio recursivo simplificada e aprimorada, que utiliza uma única rede neural minúscula para resolver tarefas de quebra-cabeça complexas onde os Large Language Models (LLMs) frequentemente falham.
O TRM é apresentado como uma alternativa superior ao Hierarchical Reasoning Model (HRM) de Wang et al. (2025).
Contexto e Motivação
LLMs podem ter dificuldades em problemas complexos de perguntas e respostas devido ao alto risco de erro na geração auto-regressiva. Para mitigar isso, eles utilizam técnicas como Chain-of-Thoughts (CoT) e Test-Time Compute (TTC), mas estas podem ser caras, exigir dados de raciocínio de alta qualidade e ainda assim não são suficientes para resolver todos os problemas. Por exemplo, mesmo após seis anos, a precisão em nível humano ainda não foi alcançada no ARC-AGI.
O HRM surgiu como uma nova direção, usando duas pequenas redes neurais recursivas em diferentes frequências e supervisão profunda para obter alta precisão em tarefas como Sudoku, Maze e ARC-AGI. No entanto, o HRM é complexo, dependendo de argumentos biológicos e do Teorema da Função Implícita (IFT), que pode não ser totalmente aplicável.
O Modelo TRM: Simplificação e Eficiência
O TRM aborda as deficiências do HRM, alcançando uma generalização significativamente maior com uma abordagem mais simples:
- Rede Única e Minúscula: O TRM utiliza uma *única rede minúscula de apenas 2 camadas. Com apenas **7 milhões de parâmetros, o TRM utiliza menos de 0,01% dos parâmetros dos LLMs maiores e é muito menor que o HRM (27M parâmetros). Surpreendentemente, redes menores (2 camadas em vez de 4) maximizaram a generalização, sugerindo que o tamanho reduzido ajuda a contornar o *overfitting em conjuntos de dados escassos.
- Raciocínio Recursivo: O TRM melhora recursivamente sua previsão de resposta (y). Começa com a questão de entrada (x), a resposta inicial (y) e o feature latente (z). Em até N_{sup}=16 passos de melhoria, ele recursivamente atualiza z (raciocínio latente) e, em seguida, atualiza a resposta y [3, Figura 1].
- Reinterpretação das Features Latentes: O TRM simplifica a interpretação hierárquica do HRM. No TRM, y é a solução atual (incorporada, anteriormente z_H) e z é o feature de raciocínio latente (anteriormente z_L). Essa separação é crucial, pois z atua de forma semelhante a uma Chain-of-Thought (CoT), e a passagem de ambos, y e z, ajuda o modelo a iterar o raciocínio e a resposta subsequentes.
- Eliminação de Teoremas Complexos: O TRM não exige o Teorema da Função Implícita (IFT) ou a aproximação de gradiente de 1 passo usados pelo HRM. Em vez disso, o TRM simplesmente retropropaga o gradiente através do processo de recursão completo.
- Simplificação do ACT: O TRM simplifica o tempo computacional adaptativo (ACT), eliminando a necessidade da perda 'continue loss' baseada em Q-learning do HRM, o que remove a necessidade de uma passagem forward extra (duas passagens totais) por etapa de otimização durante o treinamento, sem perda significativa de generalização.
Resultados de Desempenho
O TRM alcançou um aumento significativo na precisão de teste nos benchmarks mais difíceis, superando o HRM e a maioria dos LLMs:
| Benchmark | HRM (27M Params) | TRM-Att (7M Params) | TRM-MLP (5M Params) | Melhor LLM (e.g., Grok-4) |
|---|---|---|---|---|
| Sudoku-Extreme | 55.0% | 74.7% | 87.4% | 0.0% |
| Maze-Hard | 74.5% | 85.3% | 0.0% | 0.0% |
| ARC-AGI-1 | 40.3% | 44.6% | 29.6% | 79.6% (Bespoke/Grok-4) |
| ARC-AGI-2 | 5.0% | 7.8% | 2.4% | 29.4% (Bespoke/Grok-4) |
O TRM (com auto-atenção) alcançou 44,6% de precisão no ARC-AGI-1 e 7,8% no ARC-AGI-2, sendo significativamente mais alto do que os 40,3% e 5,0% obtidos pelo HRM, usando 4 vezes menos parâmetros. No Sudoku-Extreme, o TRM sem auto-atenção (TRM-MLP) obteve a melhor generalização (87,4%), devido ao comprimento de contexto pequeno e fixo dessa tarefa.
Em resumo, o TRM é mais simples que o HRM, exigindo menos parâmetros e justificações complexas, enquanto atinge melhor generalização em benchmarks desafiadores de raciocínio. O uso de redes minúsculas com recursão profunda e supervisão profunda parece ser eficaz para evitar o overfitting.