Stanford CS230 | Otoño de 2025 | Clase 8: Agentes, prompts y RAG
Englishto
En 2016, Microsoft lanzó un bot en Twitter para aprender de los usuarios. En menos de un día, se había vuelto tan racista que tuvieron que apagarlo al cabo de solo 16 horas. No se trataba de un equipo improvisado: era Microsoft. Sin embargo, incluso con miles de millones de dólares y cientos de ingenieros, controlar realmente un modelo de lenguaje sigue siendo un problema sin resolver. Y aquí aparece la primera grieta en la narrativa habitual: creemos que un «modelo potente» es sinónimo de «modelo útil». Pero, en realidad, la historia reciente de los LLM es una lección enorme sobre lo complicado que es obtener resultados fiables, actualizados y, sobre todo, correctos. La tesis de esta lección es la siguiente: el verdadero avance no consiste en crear modelos básicos cada vez más grandes, sino en aprender a orquestar, corregir y enriquecer los que ya tenemos. Desde simples «prompts» mejorados hasta auténticos flujos de trabajo con agentes y multiagentes, la diferencia entre un juguete y un producto radica en la arquitectura que rodea al modelo, no en el modelo en sí. Andrew Ng ha dado un nombre a esta tendencia: «agentic workflows», es decir, sistemas en los que los modelos, las herramientas externas, la memoria y las API se combinan en una cadena de acciones autónomas. Pongamos el caso de una empresa de biotecnología que desea clasificar las opiniones de sus clientes. En teoría, basta con preguntar al modelo: «¿Esta frase es positiva, neutra o negativa?». Sin embargo, el resultado depende de mil matices: para una start-up médica, un comentario como «todo ha ido bien, pero esperaba más» puede ser negativo, mientras que en otros sectores sería neutro. ¿Cómo se adapta un modelo a las necesidades reales? No con más datos o con un modelo más grande, sino con «prompts» diseñados, ejemplos a medida y, cada vez con más frecuencia, «pipelines» de varios pasos que guían la generación, la evalúan, la corrigen y la adaptan al contexto. Un ejemplo concreto: la cadena de «prompts». En lugar de pedirlo todo en una única instrucción, se divide la tarea en fases: primero, extrae los puntos clave; luego, crea un guion; por último, redacta la respuesta final. Este enfoque, utilizado por empresas como Workera, permite identificar en qué aspectos falla realmente el sistema: ¿es deficiente el esquema? ¿La respuesta final es demasiado fría? Se puede intervenir de forma específica. Y, en el mundo empresarial, esta granularidad marca la diferencia entre una demostración y una solución fiable. Un dato curioso: en un estudio sobre consultores de BCG, quienes tenían acceso a la IA y también a una breve formación sobre «prompts» superaban claramente tanto a quienes no usaban la IA como a quienes la usaban «a ciegas». Además, la investigación identificó dos estilos de colaboración con los LLM. Los «centauros», que delegan bloques enteros del tipo «prepara tú la presentación y avísame cuando hayas terminado», y los «cíborgs», que trabajan en simbiosis, microinteractuando con el modelo en cada paso. Ambos métodos funcionan, pero requieren flujos de trabajo diferentes, y la diferencia no es insignificante a la hora de escalar en la empresa. RAG, es decir, Retrieval-Augmented Generation, es la respuesta más concreta al problema de la actualización y la precisión. En lugar de esperar que el modelo «lo sepa todo», se le conecta a bases de datos externas, recupera únicamente los documentos pertinentes y los incluye en la respuesta. Puede parecer un parche, pero piensa en lo siguiente: incluso si en el futuro los modelos pudieran leer toda la web en tiempo real (spoiler: esto nunca sucederá por motivos de latencia y coste), seguiríamos necesitando sistemas de recuperación, como los motores de búsqueda, por razones de eficiencia y trazabilidad de las fuentes. Veamos el ejemplo de los contenidos generados poco después de la famosa metedura de pata «Covfefe» de Trump: el LLM de Twitter no tenía ni idea de cómo gestionarlos y el sistema de recomendaciones se volvió loco. Hoy en día, ocurre lo mismo a diario con el lenguaje coloquial, los neologismos y las tendencias. La RAG permite mantenerse al día sin tener que volver a entrenar todo desde cero. Pasemos a los agentes: piensa en un agente de atención al cliente. Ya no es solo un chat que responde: extrae datos, consulta la base de datos de pedidos, verifica las políticas, actualiza la información y redacta correos electrónicos, todo ello orquestando herramientas y memoria. Pero ¿cómo sabes si «funciona»? Aquí entra en juego el tema de las «evals», las evaluaciones. Se utilizan tanto métricas objetivas (porcentaje de consultas resueltas, tiempo de respuesta, exactitud del resultado) como evaluaciones subjetivas a través de LLM jueces o comentarios humanos. Y, lo que es fundamental, se realiza un seguimiento de cada paso intermedio: si la respuesta es descortés, puedes averiguar qué «prompt» o subsistema ha provocado el problema. Esta arquitectura modular y trazable es la verdadera diferencia entre el software tradicional y determinista y los sistemas «fuzzy» basados en LLM: aquí no basta con escribir un código sólido una sola vez, sino que hay que aprender a experimentar, descartar partes, iterar e implementar flujos de trabajo humanos para corregir los errores o las desviaciones de la inteligencia artificial. A escala empresarial, McKinsey ha estimado que las automatizaciones de agentes pueden reducir entre un 20 % y un 60 % la duración de procesos como la evaluación del riesgo crediticio. Pero el verdadero reto no es técnico: consiste en hacer que miles de personas cambien sus hábitos, en reescribir las descripciones de los puestos de trabajo y en redefinir los incentivos. Por eso, aunque la tecnología avance a gran velocidad, las organizaciones tardarán años en transformarse realmente. Una última reflexión: hoy en día, el verdadero valor ya no reside en crear el modelo más grande, sino en saber combinar modelos, herramientas, flujos de trabajo y memoria para resolver problemas reales, medibles y mejorables a lo largo del tiempo. ¿Cuál es la diferencia entre una demostración y un producto? Estar del lado del sistema que lo orquesta, no solo del modelo que genera. Esta lección procede del curso CS230 de Stanford, otoño de 2025: acabas de ahorrarte casi dos horas de clase.
0shared

Stanford CS230 | Otoño de 2025 | Clase 8: Agentes, prompts y RAG