Stanford CS230 | 2º semestre de 2025 | Aula 8: Agentes, prompts e RAG
Englishto
Em 2016, a Microsoft lançou um bot no Twitter para aprender com os usuários. Em menos de um dia, ele se tornou tão racista que precisaram desativá-lo após apenas 16 horas. Não era uma equipe improvisada: era a Microsoft. No entanto, mesmo com bilhões de dólares e centenas de engenheiros, controlar de fato um modelo de linguagem continua sendo um problema não resolvido. E aqui está a primeira falha na narrativa comum: achamos que um “modelo poderoso” é sinônimo de “modelo útil”. Mas, na realidade, a história recente dos LLMs é uma lição gigantesca sobre como é complicado obter resultados confiáveis, atualizados e, acima de tudo, corretos. A tese desta lição é a seguinte: o verdadeiro avanço não está em criar modelos básicos cada vez maiores, mas em aprender a orquestrar, corrigir e aprimorar os que já temos. Desde simples prompts aprimorados até verdadeiros fluxos de trabalho com agentes e multiagentes, a diferença entre um brinquedo e um produto está inteiramente na arquitetura que envolve o modelo, e não no modelo em si. Andrew Ng deu um nome a essa abordagem: “agentic workflows”, ou seja, sistemas nos quais modelos, ferramentas externas, memória e APIs são combinados em uma cadeia de ações autônomas. Vejamos o caso de uma empresa de biotecnologia que deseja classificar as avaliações dos clientes. Em teoria, basta perguntar ao modelo: “Esta frase é positiva, neutra ou negativa?” Mas o resultado depende de mil nuances: para uma startup de saúde, o comentário “correu tudo bem, mas eu esperava mais” pode ser negativo, enquanto em outros setores seria neutro. Como alinhar um modelo às necessidades reais? Não com mais dados ou um modelo maior, mas com prompts projetados, exemplos personalizados e, cada vez mais, pipelines de várias etapas que orientam a geração, a avaliam, a corrigem e a adaptam ao contexto. Um exemplo concreto: a cadeia de prompts. Em vez de pedir tudo em uma única instrução, a tarefa é dividida em etapas: primeiro, extraia os pontos-chave; depois, crie um roteiro; por fim, escreva a resposta final. Essa abordagem, usada por empresas como a Workera, permite identificar onde o sistema realmente está errando: o roteiro é fraco? A resposta final é muito fria? É possível intervir de forma direcionada. E, no mundo dos negócios, essa granularidade faz a diferença entre uma demonstração e uma solução confiável. Um dado curioso: em um estudo com consultores da BCG, aqueles que tinham acesso à IA e também a um breve treinamento sobre prompts superavam significativamente tanto os que não usavam IA quanto os que a usavam “às cegas”. Além disso, a pesquisa identificou dois estilos de colaboração com os LLMs. Os “centauros”, que delegam blocos inteiros, como “faça a apresentação e me avise quando terminar”, e os “ciborgues”, que trabalham em simbiose, microinteragindo com o modelo em cada etapa. Ambos os métodos funcionam, mas exigem fluxos de trabalho diferentes — e a diferença não é insignificante quando se trata de escalar na empresa. A RAG, ou Retrieval-Augmented Generation, é a solução mais concreta para o problema da atualização e da precisão. Em vez de esperar que o modelo “saiba tudo”, ele é conectado a bancos de dados externos, recupera apenas os documentos relevantes e os inclui na resposta. Pode parecer uma solução paliativa, mas pense no seguinte: mesmo que, no futuro, os modelos consigam ler toda a Web em tempo real (spoiler: isso nunca vai acontecer por questões de latência e custo), ainda precisaríamos de sistemas de recuperação, como os mecanismos de busca, por motivos de eficiência e rastreabilidade das fontes. Veja o exemplo do conteúdo gerado logo após a famosa gafe “Covfefe” de Trump: o LLM do Twitter não fazia ideia de como lidar com isso, e o sistema de recomendação enlouqueceu. Hoje, a mesma coisa acontece todos os dias com gírias, neologismos e tendências. A RAG permite que você acompanhe o ritmo sem precisar treinar tudo do zero novamente. Agora, falando sobre agentes: pense em um agente de suporte ao cliente. Ele não é mais apenas um chat que responde: ele extrai dados, consulta o banco de dados de pedidos, verifica políticas, atualiza informações e redige e-mails, tudo isso orquestrando ferramentas e memória. Mas como você sabe se ele está “funcionando”? É aqui que entra a questão das “evals”, ou avaliações. São usadas tanto métricas objetivas — porcentagem de solicitações resolvidas, tempo de resposta, precisão do resultado — quanto avaliações subjetivas por meio de LLMs juízes ou feedback humano. E, o que é fundamental, cada etapa intermediária é registrada: se a resposta for grosseira, é possível identificar qual prompt ou subsistema gerou o problema. Essa arquitetura modular e rastreável é a verdadeira diferença entre softwares tradicionais, determinísticos, e sistemas fuzzy baseados em LLMs: aqui, não basta escrever um código robusto uma única vez; é preciso aprender a experimentar, descartar partes, iterar e implementar fluxos de trabalho humanos para corrigir os erros ou desvios da inteligência artificial. No âmbito corporativo, a McKinsey estimou que as automações baseadas em agentes podem reduzir em 20% a 60% o tempo gasto em processos como a avaliação de risco de crédito. Mas o verdadeiro desafio não é técnico: é fazer com que milhares de pessoas mudem seus hábitos, reescrever descrições de cargos e redefinir incentivos. É por isso que, mesmo que a tecnologia avance rapidamente, as organizações levarão anos para se transformar de verdade. Uma última reflexão: hoje, o verdadeiro valor não está mais em desenvolver o maior modelo, mas em saber combinar modelos, ferramentas, fluxos de trabalho e memória para resolver problemas reais, mensuráveis e passíveis de melhoria ao longo do tempo. Qual é a diferença entre uma demonstração e um produto? Estar do lado do sistema que orquestra, não apenas do modelo que ele gera. Esta aula é do curso CS230 de Stanford, do segundo semestre de 2025: você acabou de economizar quase duas horas de aula.
0shared

Stanford CS230 | 2º semestre de 2025 | Aula 8: Agentes, prompts e RAG