A recursão é a próxima lei de escala na IA

Englishto
Imagine um modelo de inteligência artificial com apenas 7 milhões de parâmetros, treinado do zero, que supera modelos centenas de vezes maiores e treinados em toda a Internet em problemas como o Sudoku ou os famosos testes do Arc Prize. Parece impossível, não é? No entanto, em 2025, dois trabalhos acadêmicos mostraram que não é mais necessário aumentar infinitamente o tamanho dos modelos para obter um melhor desempenho: o verdadeiro avanço vem da recursão aplicada no momento da inferência, ou seja, quando o modelo raciocina, não quando é treinado. O que se pensava sobre as IAs era claro: quanto maior o modelo, mais poderoso ele se torna. Mas essa regra está se desintegrando. Os modelos recursivos, como HRM e TRM, demonstram que o verdadeiro salto de qualidade não vem apenas da escala, mas de como o modelo consegue "pensar em várias etapas" — recursivamente — durante o raciocínio. A recursão, ou seja, chamar a si mesmo várias vezes com o mesmo conjunto de regras, permite enfrentar problemas que os grandes LLM abordam apenas superficialmente. Veja François Chopard, um dos protagonistas dessa revolução. Ele conta como, até 2016, a esperança na IA estava toda nas RNNs: modelos recursivos que, no entanto, eram limitados por problemas técnicos como a famosa “backpropagation through time”, que enlouquecia as redes mais profundas devido a erros que se acumulavam ou desapareciam. Depois vieram os Transformers, que no treinamento fazem tudo em paralelo e pulam esses problemas, mas pagam um preço: toda vez que precisam raciocinar, precisam "lembrar" de todo o contexto — como se toda vez que você lesse uma página, tivesse que carregar consigo todo o romance de Shakespeare. Parece poderoso, mas na verdade os bloqueia em tarefas em que são necessárias verdadeiras cadeias de raciocínio, como ordenar uma lista ou resolver um Sudoku. Há um exemplo que você nunca esquecerá: se você pedir a um LLM para ordenar uma lista de 31 itens, mas o modelo tiver apenas 30 níveis de "profundidade", ele simplesmente não conseguirá. Não é uma questão de dados, é uma barreira estrutural. É por isso que o HRM e o TRM fazem a diferença. O HRM, por exemplo, se inspira no cérebro humano, onde diferentes partes trabalham em frequências diferentes: há o nível baixo, que lida com detalhes rápidos, e o nível alto, que controla estratégias mais lentas e profundas. Mas a verdadeira magia está no anel de refinamento externo, uma espécie de "loop" que permite que o modelo repasse suas próprias respostas várias vezes, melhorando-as a cada vez, sem ter que crescer exponencialmente. E o truque está em contornar a velha maldição do backpropagation por meio de uma técnica chamada "deep equilibrium" e "truncated backpropagation": em vez de propagar os erros em todas as recursões, eles param em um ponto e recomeçam, criando uma espécie de mini-batch, mas na memória interna, não nos inputs. Na prática, a cada ciclo, o modelo atualiza dois tipos de memória: uma local, ZL, que trabalha nos detalhes, e uma mais global, ZH, que acompanha a visão geral. Esse esquema permite resolver problemas que os LLMs enfrentam apenas com "hacks", como o chain of thought, ou seja, fazer com que cada raciocínio seja escrito passo a passo, ou delegar a ferramentas externas, como funções Python. Mas atenção: mesmo esses atalhos param onde o conhecimento humano para. Se você quiser que um modelo descubra um novo algoritmo — como o merge sort — sem que ninguém nunca o tenha ensinado, o chain of thought não é suficiente. A verdadeira recursão, por outro lado, pode fazer isso. O exemplo do Sudoku é claro: o modelo recursivo pode descobrir estratégias nunca antes vistas, sem a necessidade de ser guiado passo a passo por dados humanos. E tem mais: o TRM leva a simplificação ao extremo. Ele reduz os níveis de rede para apenas um, vai de 27 para 7 milhões de parâmetros e, ainda assim, sobe de 70% para 87% de precisão em tarefas como o Arc Prize. Isso inverte a lógica: não é mais necessário "apenas ir mais longe", mas "pensar mais profundamente". E há uma frase de Mel Mitchell, pesquisadora citada no podcast, que ilustra o ponto: “É suficiente, não necessário, crescer para melhorar. É suficiente, não é necessário, adicionar mais recursão." A questão que permanece é: o que acontece se você realmente unir essas duas forças? Se amanhã você tiver modelos gigantescos que também saibam raciocinar recursivamente, a escala do que eles podem fazer mudará novamente. Nem todos estão convencidos de que se inspirar demais na biologia seja o caminho certo: às vezes, o machine learning funciona melhor quando se afasta do cérebro humano e se adapta aos computadores — como demonstra a transição de AlexNet para VGG, onde as inspirações "neuronais" foram abandonadas para se concentrar na simplicidade que vence as GPUs. Mas o fato permanece: a recursão permite que modelos minúsculos derrotem gigantes, desde que o problema exija raciocínio em várias etapas. Hoje, os modelos recursivos são específicos para tarefas — um TRM que sabe fazer Sudoku não sabe resolver um labirinto e vice-versa. Mas assim que for encontrada uma maneira de generalizar essa recursão, teremos agentes capazes de realmente raciocinar "como seres pensantes", e não apenas imitar textos. A frase a ser lembrada é esta: a próxima lei de escala da IA não será apenas "quanto maior, melhor", mas "quanto mais recursivo, melhor". Se essa perspectiva mudou a maneira como você pensa sobre a inteligência artificial, no Lara Notes você pode sinalizar isso com I'm In: não é um like, é a sua maneira de dizer que essa visão agora faz parte de você. E se amanhã você contar a alguém que um modelo minúsculo pode vencer um gigante graças à recursão, no Lara Notes você pode marcar a pessoa com Shared Offline — assim essa conversa não se perde. Este episódio de Decoded da Y Combinator poupa 34 minutos de escuta.
0shared
A recursão é a próxima lei de escala na IA

A recursão é a próxima lei de escala na IA

I'll take...