Tiny Recursive Model (TRM) - Less is More · Oletros

TL;DR

O texto apresenta o Tiny Recursive Model (TRM), uma abordagem simplificada e mais eficiente para modelos de raciocínio recursivo que supera o complexo Hierarchical Reasoning Model (HRM). O TRM utiliza uma única rede neural minúscula para aprimorar progressivamente uma resposta ao recursivamente refinar uma feature latente (z), que representa o raciocínio, e a resposta (y), que representa a solução proposta. Ao contrário do HRM, o TRM elimina a necessidade de argumentos biológicos complexos ou do Teorema da Função Implícita para a aproximação de gradiente, além de reduzir o número de parâmetros e otimizar o processo de treinamento, incluindo um mecanismo de Adaptive Computational Time (ACT) simplificado. O artigo demonstra que o TRM alcança uma generalização significativamente maior em tarefas difíceis como Sudoku, Maze e ARC-AGI, utilizando apenas uma fração dos parâmetros dos modelos concorrentes, incluindo Large Language Models (LLMs).

Explicando mais um pouco

O artigo "Less is More: Recursive Reasoning with Tiny Networks" propõe o Tiny Recursive Model (TRM), uma abordagem de raciocínio recursivo simplificada e aprimorada, que utiliza uma única rede neural minúscula para resolver tarefas de quebra-cabeça complexas onde os Large Language Models (LLMs) frequentemente falham.

O TRM é apresentado como uma alternativa superior ao Hierarchical Reasoning Model (HRM) de Wang et al. (2025).

Contexto e Motivação

LLMs podem ter dificuldades em problemas complexos de perguntas e respostas devido ao alto risco de erro na geração auto-regressiva. Para mitigar isso, eles utilizam técnicas como Chain-of-Thoughts (CoT) e Test-Time Compute (TTC), mas estas podem ser caras, exigir dados de raciocínio de alta qualidade e ainda assim não são suficientes para resolver todos os problemas. Por exemplo, mesmo após seis anos, a precisão em nível humano ainda não foi alcançada no ARC-AGI.

O HRM surgiu como uma nova direção, usando duas pequenas redes neurais recursivas em diferentes frequências e supervisão profunda para obter alta precisão em tarefas como Sudoku, Maze e ARC-AGI. No entanto, o HRM é complexo, dependendo de argumentos biológicos e do Teorema da Função Implícita (IFT), que pode não ser totalmente aplicável.

O Modelo TRM: Simplificação e Eficiência

O TRM aborda as deficiências do HRM, alcançando uma generalização significativamente maior com uma abordagem mais simples:

Rede Única e Minúscula: O TRM utiliza uma *única rede minúscula de apenas 2 camadas. Com apenas **7 milhões de parâmetros, o TRM utiliza menos de 0,01% dos parâmetros dos LLMs maiores e é muito menor que o HRM (27M parâmetros). Surpreendentemente, redes menores (2 camadas em vez de 4) maximizaram a generalização, sugerindo que o tamanho reduzido ajuda a contornar o *overfitting em conjuntos de dados escassos.
Raciocínio Recursivo: O TRM melhora recursivamente sua previsão de resposta ( $y$ ). Começa com a questão de entrada ( $x$ ), a resposta inicial ( $y$ ) e o feature latente ( $z$ ). Em até $N_{sup}=16$ passos de melhoria, ele recursivamente atualiza $z$ (raciocínio latente) e, em seguida, atualiza a resposta $y$ [3, Figura 1].
Reinterpretação das Features Latentes: O TRM simplifica a interpretação hierárquica do HRM. No TRM, $y$ é a solução atual (incorporada, anteriormente $z_H$ ) e $z$ é o feature de raciocínio latente (anteriormente $z_L$ ). Essa separação é crucial, pois $z$ atua de forma semelhante a uma Chain-of-Thought (CoT), e a passagem de ambos, $y$ e $z$ , ajuda o modelo a iterar o raciocínio e a resposta subsequentes.
Eliminação de Teoremas Complexos: O TRM não exige o Teorema da Função Implícita (IFT) ou a aproximação de gradiente de 1 passo usados pelo HRM. Em vez disso, o TRM simplesmente retropropaga o gradiente através do processo de recursão completo.
Simplificação do ACT: O TRM simplifica o tempo computacional adaptativo (ACT), eliminando a necessidade da perda 'continue loss' baseada em Q-learning do HRM, o que remove a necessidade de uma passagem forward extra (duas passagens totais) por etapa de otimização durante o treinamento, sem perda significativa de generalização.

Resultados de Desempenho

O TRM alcançou um aumento significativo na precisão de teste nos benchmarks mais difíceis, superando o HRM e a maioria dos LLMs:

Benchmark	HRM (27M Params)	TRM-Att (7M Params)	TRM-MLP (5M Params)	Melhor LLM (e.g., Grok-4)
Sudoku-Extreme	55.0%	74.7%	87.4%	0.0%
Maze-Hard	74.5%	85.3%	0.0%	0.0%
ARC-AGI-1	40.3%	44.6%	29.6%	79.6% (Bespoke/Grok-4)
ARC-AGI-2	5.0%	7.8%	2.4%	29.4% (Bespoke/Grok-4)

O TRM (com auto-atenção) alcançou 44,6% de precisão no ARC-AGI-1 e 7,8% no ARC-AGI-2, sendo significativamente mais alto do que os 40,3% e 5,0% obtidos pelo HRM, usando 4 vezes menos parâmetros. No Sudoku-Extreme, o TRM sem auto-atenção (TRM-MLP) obteve a melhor generalização (87,4%), devido ao comprimento de contexto pequeno e fixo dessa tarefa.

Em resumo, o TRM é mais simples que o HRM, exigindo menos parâmetros e justificações complexas, enquanto atinge melhor generalização em benchmarks desafiadores de raciocínio. O uso de redes minúsculas com recursão profunda e supervisão profunda parece ser eficaz para evitar o overfitting.