Stanford CS230 | Осень 2025 | Лекция 8: Агенты, промпты и RAG

https://www.youtube.com/watch?v=k1njvbBmfsw

Englishto

В 2016 году Microsoft запустила бота в Twitter, чтобы учиться у пользователей. Менее чем за день он стал настолько расистским, что его пришлось отключить всего через 16 часов. Это была не случайная команда — это была Microsoft. Однако даже при наличии миллиардов долларов и сотен инженеров реальный контроль над языковой моделью остается нерешенной проблемой. И вот первая трещина в общепринятом нарративе: мы считаем, что «мощная модель» является синонимом «полезной модели». Но на самом деле недавняя история LLM — это огромный урок о том, как сложно получить надежные, актуальные и, самое главное, правильные результаты. Тезис этого урока: настоящий прорыв заключается не в создании всё более крупных базовых моделей, а в том, чтобы научиться организовывать, корректировать и обогащать то, что у нас уже есть. От простых, но улучшенных промптов до настоящих агентных и многоагентных рабочих процессов — разница между игрушкой и продуктом заключается в архитектуре вокруг модели, а не в самой модели. Эндрю Ын дал название этому направлению: «агентные рабочие процессы», то есть системы, в которых модели, внешние инструменты, память и API объединяются в цепочку автономных действий. Возьмем, к примеру, биотехнологическую компанию, которая хочет классифицировать отзывы клиентов. Теоретически достаточно спросить модель: «Это утверждение положительное, нейтральное или отрицательное?» Но результат зависит от тысячи нюансов: для медицинского стартапа комментарий «всё прошло хорошо, но я ожидал большего» может быть негативным, тогда как в других отраслях он будет нейтральным. Как согласовать модель с реальными потребностями? Не за счет большего объема данных или более крупной модели, а за счет специально разработанных промптов, индивидуальных примеров и — все чаще — многоэтапных пайплайнов, которые управляют генерацией, оценивают ее, корректируют и адаптируют к контексту. Конкретный пример: цепочка промптов. Вместо того чтобы запрашивать всё в одном указании, задачу разбивают на этапы: сначала извлекают ключевые моменты, затем создают план, а затем пишут окончательный ответ. Такой подход, используемый такими компаниями, как Workera, позволяет выявить, в чем именно система ошибается: возможно, недостаточно хороша структура? Окончательный ответ слишком холодный? Можно принять целенаправленные меры. А в бизнесе такая детализация — это то, что отличает демонстрационную версию от надежного решения. Любопытный факт: исследование, проведенное среди консультантов BCG, показало, что те, у кого был доступ к ИИ, а также прошедшие краткое обучение по использованию промптов, значительно превзошли как тех, кто не использовал ИИ, так и тех, кто использовал его «вслепую». Более того, исследование выявило два стиля взаимодействия с LLM. «Кентавры», которые делегируют целые блоки задач, например: «Сделай презентацию и сообщи мне, когда закончишь», и «киборги», которые работают в симбиозе, микроинтерактируя с моделью на каждом этапе. Оба метода работают, но требуют разных рабочих процессов, и эта разница становится ощутимой при масштабировании в компании. RAG, или Retrieval-Augmented Generation, — это наиболее конкретное решение проблемы актуальности и точности. Вместо того чтобы ожидать, что модель «знает всё», ее подключают к внешним базам данных, и она извлекает только релевантные документы и включает их в ответ. Это может показаться временным решением, но подумайте: даже если в будущем модели смогут читать весь Интернет в режиме реального времени (спойлер: этого никогда не произойдет из-за задержек и стоимости), нам по-прежнему будут нужны системы поиска, такие как поисковые системы, для обеспечения эффективности и отслеживания источников. В качестве примера можно привести контент, сгенерированный вскоре после знаменитого ляпсуса Трампа «Covfefe»: LLM Twitter понятия не имел, как с ним поступить, и система рекомендаций сошла с ума. Сегодня то же самое происходит каждый день со сленгом, неологизмами и трендами. RAG позволяет идти в ногу со временем без необходимости переобучать систему с нуля. Перейдем к агентам: представьте себе агента службы поддержки клиентов. Это уже не просто чат, который отвечает: он извлекает данные, обращается к базе данных заказов, проверяет политики, обновляет информацию и составляет электронные письма, при этом координируя работу инструментов и памяти. Но как понять, «работает» ли он? Здесь вступает в игру тема «evals», то есть оценок. Используются как объективные показатели (процент решенных запросов, время ответа, правильность выходных данных), так и субъективные оценки, полученные с помощью LLM-судей или обратной связи от людей. И, что крайне важно, отслеживается каждый промежуточный шаг: если ответ невежливый, можно отследить, какая подсказка или подсистема вызвала проблему. Эта модульная и отслеживаемая архитектура — настоящее отличие традиционного, детерминированного программного обеспечения от нечетких систем на основе LLM: здесь недостаточно один раз написать надежный код, нужно научиться экспериментировать, отбрасывать части, выполнять итерации и внедрять человеческие рабочие процессы, чтобы исправлять ошибки или сбои искусственного интеллекта. По оценкам McKinsey, на уровне предприятия автоматизация агентских процессов, таких как оценка кредитного риска, может сократить время их выполнения на 20–60%. Но настоящая проблема не в технических аспектах: она заключается в том, чтобы заставить тысячи людей изменить свои привычки, переписать должностные инструкции и пересмотреть систему поощрений. Вот почему, даже несмотря на стремительное развитие технологий, организациям потребуются годы, чтобы по-настоящему трансформироваться. И последнее замечание: сегодня настоящая ценность заключается уже не в создании самой большой модели, а в умении объединять модели, инструменты, рабочие процессы и память для решения реальных, измеримых и улучшаемых со временем проблем. В чем разница между демонстрацией и продуктом? Быть на стороне системы, которая управляет, а не только модели, которую она создает. Этот урок взят из курса CS230 Стэнфордского университета, осень 2025 года: вы только что сэкономили почти два часа учебного времени.

0shared

Stanford CS230 | Осень 2025 | Лекция 8: Агенты, промпты и RAG

I'll take...