DeepSeek - novo método para o desenvolvimento de IA · pinei

Liang Wenfeng, fundador do DeepSeek, publicou recentemente o artigo "mHC: Manifold-Constrained Hyper-Connections" que causou um barulho no mercado de IA.

https://arxiv.org/abs/2512.24880

Trata-se de uma proposta da DeepSeek para desenvolvimento de LLM que reduz instabilidade e abre espaço para modelos mais profundos/expressivos com pouco overhead de treino, o que pode virar uma vantagem estratégica frente ao stack mais conservador que OpenAI, Anthropic (Claude) e Google vêm usando publicamente.

Hoje o que se sabe é que GPT, Claude e Gemini continuam baseados em Transformers com residual connections clássicas (às vezes com variações tipo MoE, cross‑attention multimodal, posicionais mais sofisticadas etc.). Não há indicação pública de que estejam usando algo tão agressivamente diferente em residual/topologia quanto mHC.

Modelos de 3B–27B de parâmetros com mHC batem equivalentes com HC “solto” em vários benchmarks, com curvas de treino mais limpas.

Big tech costuma manter a arquitetura relativamente conservadora e compensar com escala (mais parâmetros, mais dados, mais hardware). Residual clássico é “bom o bastante”, então o foco vai para outros truques (RLHF, tool use, memória longa etc.).

mHC é uma aposta de que dá para extrair ganhos de qualidade/eficiência mexendo justamente na “hidráulica interna” da rede, abrindo um caminho de scaling alternativo que não depende apenas de multiplicar FLOPs.