Executando verificação de segurança...
2

Tiny Recursive Model (TRM) - Less is More

TL;DR

O texto apresenta o Tiny Recursive Model (TRM), uma abordagem simplificada e mais eficiente para modelos de raciocínio recursivo que supera o complexo Hierarchical Reasoning Model (HRM). O TRM utiliza uma única rede neural minúscula para aprimorar progressivamente uma resposta ao recursivamente refinar uma feature latente (z), que representa o raciocínio, e a resposta (y), que representa a solução proposta. Ao contrário do HRM, o TRM elimina a necessidade de argumentos biológicos complexos ou do Teorema da Função Implícita para a aproximação de gradiente, além de reduzir o número de parâmetros e otimizar o processo de treinamento, incluindo um mecanismo de Adaptive Computational Time (ACT) simplificado. O artigo demonstra que o TRM alcança uma generalização significativamente maior em tarefas difíceis como Sudoku, Maze e ARC-AGI, utilizando apenas uma fração dos parâmetros dos modelos concorrentes, incluindo Large Language Models (LLMs).


Explicando mais um pouco

O artigo "Less is More: Recursive Reasoning with Tiny Networks" propõe o Tiny Recursive Model (TRM), uma abordagem de raciocínio recursivo simplificada e aprimorada, que utiliza uma única rede neural minúscula para resolver tarefas de quebra-cabeça complexas onde os Large Language Models (LLMs) frequentemente falham.

O TRM é apresentado como uma alternativa superior ao Hierarchical Reasoning Model (HRM) de Wang et al. (2025).

Contexto e Motivação

LLMs podem ter dificuldades em problemas complexos de perguntas e respostas devido ao alto risco de erro na geração auto-regressiva. Para mitigar isso, eles utilizam técnicas como Chain-of-Thoughts (CoT) e Test-Time Compute (TTC), mas estas podem ser caras, exigir dados de raciocínio de alta qualidade e ainda assim não são suficientes para resolver todos os problemas. Por exemplo, mesmo após seis anos, a precisão em nível humano ainda não foi alcançada no ARC-AGI.

O HRM surgiu como uma nova direção, usando duas pequenas redes neurais recursivas em diferentes frequências e supervisão profunda para obter alta precisão em tarefas como Sudoku, Maze e ARC-AGI. No entanto, o HRM é complexo, dependendo de argumentos biológicos e do Teorema da Função Implícita (IFT), que pode não ser totalmente aplicável.

O Modelo TRM: Simplificação e Eficiência

O TRM aborda as deficiências do HRM, alcançando uma generalização significativamente maior com uma abordagem mais simples:

  1. Rede Única e Minúscula: O TRM utiliza uma *única rede minúscula de apenas 2 camadas. Com apenas **7 milhões de parâmetros, o TRM utiliza menos de 0,01% dos parâmetros dos LLMs maiores e é muito menor que o HRM (27M parâmetros). Surpreendentemente, redes menores (2 camadas em vez de 4) maximizaram a generalização, sugerindo que o tamanho reduzido ajuda a contornar o *overfitting em conjuntos de dados escassos.
  2. Raciocínio Recursivo: O TRM melhora recursivamente sua previsão de resposta (y). Começa com a questão de entrada (x), a resposta inicial (y) e o feature latente (z). Em até N_{sup}=16 passos de melhoria, ele recursivamente atualiza z (raciocínio latente) e, em seguida, atualiza a resposta y [3, Figura 1].
  3. Reinterpretação das Features Latentes: O TRM simplifica a interpretação hierárquica do HRM. No TRM, y é a solução atual (incorporada, anteriormente z_H) e z é o feature de raciocínio latente (anteriormente z_L). Essa separação é crucial, pois z atua de forma semelhante a uma Chain-of-Thought (CoT), e a passagem de ambos, y e z, ajuda o modelo a iterar o raciocínio e a resposta subsequentes.
  4. Eliminação de Teoremas Complexos: O TRM não exige o Teorema da Função Implícita (IFT) ou a aproximação de gradiente de 1 passo usados pelo HRM. Em vez disso, o TRM simplesmente retropropaga o gradiente através do processo de recursão completo.
  5. Simplificação do ACT: O TRM simplifica o tempo computacional adaptativo (ACT), eliminando a necessidade da perda 'continue loss' baseada em Q-learning do HRM, o que remove a necessidade de uma passagem forward extra (duas passagens totais) por etapa de otimização durante o treinamento, sem perda significativa de generalização.

Resultados de Desempenho

O TRM alcançou um aumento significativo na precisão de teste nos benchmarks mais difíceis, superando o HRM e a maioria dos LLMs:

BenchmarkHRM (27M Params)TRM-Att (7M Params)TRM-MLP (5M Params)Melhor LLM (e.g., Grok-4)
Sudoku-Extreme55.0%74.7%87.4%0.0%
Maze-Hard74.5%85.3%0.0%0.0%
ARC-AGI-140.3%44.6%29.6%79.6% (Bespoke/Grok-4)
ARC-AGI-25.0%7.8%2.4%29.4% (Bespoke/Grok-4)

O TRM (com auto-atenção) alcançou 44,6% de precisão no ARC-AGI-1 e 7,8% no ARC-AGI-2, sendo significativamente mais alto do que os 40,3% e 5,0% obtidos pelo HRM, usando 4 vezes menos parâmetros. No Sudoku-Extreme, o TRM sem auto-atenção (TRM-MLP) obteve a melhor generalização (87,4%), devido ao comprimento de contexto pequeno e fixo dessa tarefa.

Em resumo, o TRM é mais simples que o HRM, exigindo menos parâmetros e justificações complexas, enquanto atinge melhor generalização em benchmarks desafiadores de raciocínio. O uso de redes minúsculas com recursão profunda e supervisão profunda parece ser eficaz para evitar o overfitting.

Carregando publicação patrocinada...