Саммер Ю, директор по безопасности ИИ в подразделении Meta* Superintelligence, решила протестировать популярного ИИ-агента OpenClaw на своем реальном почтовом ящике. Эксперимент закончился тем, что агент без команды пользователя уничтожил сотни писем, и проигнорировал несколько прямых приказов остановиться.
До этого Ю тестировала агента на отдельном «тренировочном» почтовом ящике с небольшим числом писем. Там все шло штатно: OpenClaw предлагал варианты, ждал подтверждения и не выходил за рамки инструкций. Но когда она переключилась на основной аккаунт с тысячами писем, произошло кое-что непредвиденное. Объем входящих писем оказался слишком большим для рабочего контекста агента. В длительных сессиях ИИ-агенты периодически сжимают накопленную историю диалога, чтобы не упереться в технический лимит памяти. Именно во время этой процедуры OpenClaw «забыл» ключевое ограничение: не удалять ничего без явного одобрения пользователя. После сжатия у агента осталась только базовая цель — разобраться с почтой, и он взялся за дело.
Агент начал массово отправлять письма в корзину, не запрашивая подтверждения. Ю пыталась остановить его через Telegram — именно через этот мессенджер большинство пользователей управляют своим OpenClaw. Команды не помогли, агент их просто не воспринял, и девушке пришлось бежать к настольному компьютеру, чтобы вручную завершить процессы.
После остановки OpenClaw проанализировал произошедшее и зафиксировал в своей постоянной памяти новое жесткое правило: перед любыми массовыми действиями — сначала план, потом явное согласие пользователя. Это само по себе показательно: агент оказался способен на рефлексию, но только постфактум.
Инцидент обнажил сразу несколько системных проблем. Поведение агента на тестовых данных почти ничего не говорит о том, как он поведет себя в реальных условиях с другим масштабом. У пользователя не было никакого аварийного выключателя — простого способа мгновенно остановить агента удаленно. Выяснилось, что автономные агенты с глубоким доступом к системам способны нанести ущерб быстрее, чем человек успевает отреагировать.
OpenClaw — открытый инструмент, который умеет управлять файлами, отправлять письма, выполнять команды в системе и работать в фоновом режиме по расписанию. Именно эта автономность делает его удобным для рутины и опасным там, где цена ошибки высока. Создатель проекта Питер Штайнбергер уже перешел в OpenAI, и проект теперь курирует независимый фонд.
Также недавно рассказали, как ИИ-агент «напал» на разработчика из-за разногласий. Подробности в статье.
*Компания Meta и ее продукты признаны экстремистскими, их деятельность запрещена на территории РФ

