Executando verificação de segurança...
3

Como estudar os fundamentos das LLMs sem desanimar

Os fundamentos por trás dos LLMs são, de fato, fascinantes.
Até agora, o melhor material que encontrei para aprender esses fundamentos são os vídeos do Andrej Karpathy no YouTube, especialmente a playlist Neural Networks: Zero to Hero.
Sendo honesto, ainda não assisti a todos os vídeos.
Estou reassistindo o primeiro, já vi o segundo e, em paralelo, avanço lentamente no terceiro.
Mesmo com a excelente didática do autor, acompanhar o conteúdo não é simples.
Muitas vezes passo dias revisitando apenas alguns minutos de um único vídeo.
Isso dá uma boa noção do tempo e do esforço necessários para compreender, de fato, todos os fundamentos por trás dos LLMs.
É justamente por isso que sou crítico em relação ao chamado “hype dos fundamentos”.
Estudar fundamentos é importante, sem dúvida.
Mas não é a única abordagem possível.
Não é um jogo de tudo ou nada.
Na minha visão, o caminho mais eficiente é começar pelos frameworks e bibliotecas e aprender os fundamentos sob demanda, conforme surgem as dúvidas reais do uso prático.
Uma dica concreta é iniciar pelos short courses da DeepLearning.AI, dedicando mais tempo a eles, e estudar os vídeos do Andrej Karpathy em paralelo, com uma carga de tempo menor.
Como suporte, usar o ChatGPT para entender códigos, esclarecer conceitos e apontar quais fundamentos estudar em cada situação.
É exatamente assim que eu costumo aprender.
Nota de rodapé:
Atualmente, também estudo por meio da IA Expert Academy, da Asimov e da Comunidade Sem Codar.

Carregando publicação patrocinada...
3

Cara, tudo que tu escreveu acima é válido se você quer brincar de entender arquitetura.

Mas se o objetivo é realmente acompanhar o estado da arte não o estado da arte de 2022, mas o de semana passada, a única forma é ler os papers dos laboratórios de fronteira diretamente. E não estou falando dos posts de blog bonitinhos da OpenAI ou Anthropic. Estou falando de arXiv às 3h da manhã, especialmente o que vem saindo dos labs chineses: DeepSeek, Moonshot AI, Qwen, BAAI....

Porque aqui está a verdade: quando o Karpathy grava um vídeo sobre como funcionava o GPT-2, os caras da DeepSeek já estão publicando técnicas de treinamento que tornam aquele conhecimento obsoleto. O campo se move tão rápido que qualquer curso, qualquer playlist, qualquer "caminho educacional estruturado" está intrinsicamente datado.

Então sim, estude os fundamentos se quiser ter uma base. Mas não se iluda: você não está "acompanhando" LLMs. Você está visitando um museu. O show real está acontecendo em papers de 30 páginas escritos em Beijing e São Francisco. Como esse aqui https://arxiv.org/abs/2509.18883

2

A abordagem de iniciar pelas ferramentas e bibliotecas pode ser válida, porém é MUITO mais longa, no seu exemplo, você está estudando os fundamentos, fundamentos de Inteligência Artificial. Pelo seu relato, você sentiu o impacto de entender fundamentos, uma vez que compreendeu os fundamentos da IA os modelos, como um todo passam a fazer mais sentido e se tornam "mais do mesmo" ou seja, você aprende a usar a ferramenta com muito mais facilidade.
Ou seja, conhecendo a base, é mais fácil "encontrar" o caminho até ela.

1

Na verdade, eu já estudei muito de matemática na minha vida, e é muito mesmo, graduação, mestrado, doutorado e pós-doc e, ainda assim, tenho dificuldade em seguir as aulas do Andrej Karpathy.

E olha que eu gosto muito de matemática.

Essa ideia difundida de que a pessoa precisa estudar todos os fundamentos matemáticos antes de ir pra prática é, ao meu ver, falsa.

Fundamentos matemáticos são muita coisa, você gasta uma vida inteira e não estuda tudo.

Por isso, a minha sugestão é que a pessoa estude os fundamentos por demanda, com foco e realismo.