Популярная нейросеть стерла весь почтовый ящик специалиста по кибербезопасности

Саммер Ю, директор по безопасности ИИ в подразделении Meta* Superintelligence, решила протестировать популярного ИИ-агента OpenClaw на своем реальном почтовом ящике. Эксперимент закончился тем, что агент без команды пользователя уничтожил сотни писем, и проигнорировал несколько прямых приказов остановиться.

До этого Ю тестировала агента на отдельном «тренировочном» почтовом ящике с небольшим числом писем. Там все шло штатно: OpenClaw предлагал варианты, ждал подтверждения и не выходил за рамки инструкций. Но когда она переключилась на основной аккаунт с тысячами писем, произошло кое-что непредвиденное. Объем входящих писем оказался слишком большим для рабочего контекста агента. В длительных сессиях ИИ-агенты периодически сжимают накопленную историю диалога, чтобы не упереться в технический лимит памяти. Именно во время этой процедуры OpenClaw «забыл» ключевое ограничение: не удалять ничего без явного одобрения пользователя. После сжатия у агента осталась только базовая цель — разобраться с почтой, и он взялся за дело.

Агент начал массово отправлять письма в корзину, не запрашивая подтверждения. Ю пыталась остановить его через Telegram — именно через этот мессенджер большинство пользователей управляют своим OpenClaw. Команды не помогли, агент их просто не воспринял, и девушке пришлось бежать к настольному компьютеру, чтобы вручную завершить процессы.

Читать далее:

Нейросети значительно охотнее человека готовы помочь с финансами

После остановки OpenClaw проанализировал произошедшее и зафиксировал в своей постоянной памяти новое жесткое правило: перед любыми массовыми действиями — сначала план, потом явное согласие пользователя. Это само по себе показательно: агент оказался способен на рефлексию, но только постфактум.

Инцидент обнажил сразу несколько системных проблем. Поведение агента на тестовых данных почти ничего не говорит о том, как он поведет себя в реальных условиях с другим масштабом. У пользователя не было никакого аварийного выключателя — простого способа мгновенно остановить агента удаленно. Выяснилось, что автономные агенты с глубоким доступом к системам способны нанести ущерб быстрее, чем человек успевает отреагировать.

OpenClaw — открытый инструмент, который умеет управлять файлами, отправлять письма, выполнять команды в системе и работать в фоновом режиме по расписанию. Именно эта автономность делает его удобным для рутины и опасным там, где цена ошибки высока. Создатель проекта Питер Штайнбергер уже перешел в OpenAI, и проект теперь курирует независимый фонд.

Также недавно рассказали, как ИИ-агент «напал» на разработчика из-за разногласий. Подробности в статье.

*Компания Meta и ее продукты признаны экстремистскими, их деятельность запрещена на территории РФ

Популярная нейросеть стерла весь почтовый ящик специалиста по кибербезопасности

Компания Samsung представила безбуферный твердотельный накопитель серии 990 на базе памяти QLC

Илон Маск купил энергетическую компанию за $1 млрд, чтобы запитать ИИ-гигафабрику Colossus

TSMC вложит ещё $100 млрд в США и построит четыре 2-нм фабрики в Аризоне

В Overwatch Rush скоро снова можно будет поиграть

64% покупателей доверяют советам нейросетей и делают это зря

Популярная нейросеть стерла весь почтовый ящик специалиста по кибербезопасности

Похожие записи