Image default
Нейросети

Популярная нейросеть стерла весь почтовый ящик специалиста по кибербезопасности

Саммер Ю, директор по безопасности ИИ в подразделении Meta* Superintelligence, решила протестировать популярного ИИ-агента OpenClaw на своем реальном почтовом ящике. Эксперимент закончился тем, что агент без команды пользователя уничтожил сотни писем, и проигнорировал несколько прямых приказов остановиться.

До этого Ю тестировала агента на отдельном «тренировочном» почтовом ящике с небольшим числом писем. Там все шло штатно: OpenClaw предлагал варианты, ждал подтверждения и не выходил за рамки инструкций. Но когда она переключилась на основной аккаунт с тысячами писем, произошло кое-что непредвиденное. Объем входящих писем оказался слишком большим для рабочего контекста агента. В длительных сессиях ИИ-агенты периодически сжимают накопленную историю диалога, чтобы не упереться в технический лимит памяти. Именно во время этой процедуры OpenClaw «забыл» ключевое ограничение: не удалять ничего без явного одобрения пользователя. После сжатия у агента осталась только базовая цель — разобраться с почтой, и он взялся за дело.

Агент начал массово отправлять письма в корзину, не запрашивая подтверждения. Ю пыталась остановить его через Telegram — именно через этот мессенджер большинство пользователей управляют своим OpenClaw. Команды не помогли, агент их просто не воспринял, и девушке пришлось бежать к настольному компьютеру, чтобы вручную завершить процессы.

Читать далее:
Эксперт рассказал, почему не стоит делиться медицинскими данными с ИИ

После остановки OpenClaw проанализировал произошедшее и зафиксировал в своей постоянной памяти новое жесткое правило: перед любыми массовыми действиями — сначала план, потом явное согласие пользователя. Это само по себе показательно: агент оказался способен на рефлексию, но только постфактум.

Инцидент обнажил сразу несколько системных проблем. Поведение агента на тестовых данных почти ничего не говорит о том, как он поведет себя в реальных условиях с другим масштабом. У пользователя не было никакого аварийного выключателя — простого способа мгновенно остановить агента удаленно. Выяснилось, что автономные агенты с глубоким доступом к системам способны нанести ущерб быстрее, чем человек успевает отреагировать.

OpenClaw — открытый инструмент, который умеет управлять файлами, отправлять письма, выполнять команды в системе и работать в фоновом режиме по расписанию. Именно эта автономность делает его удобным для рутины и опасным там, где цена ошибки высока. Создатель проекта Питер Штайнбергер уже перешел в OpenAI, и проект теперь курирует независимый фонд.

Также недавно рассказали, как ИИ-агент «напал» на разработчика из-за разногласий. Подробности в статье.

*Компания Meta и ее продукты признаны экстремистскими, их деятельность запрещена на территории РФ

Похожие записи

США заподозрили DeepSeek в использовании запрещенных чипов Nvidia

admin

Российский ИИ заставят следить за электросамокатчиками-нарушителями

admin

Создатель флагманского ИИ Claude рассказал про будущее и риски нейросетей

admin