Не разрешайте ИИ общаться с плохими хакерами
Как не позволить ИИ-агентам стать орудием злоумышленников
ИИ-агенты, то есть системы, которые способны принимать решения и совершать различные действия для выполнения нечетко поставленных задач без участия человека, перестают быть экспериментом энтузиастов и превращаются в инструмент для решения широкого круга проблем. Но это влияет на кибербезопасность: создает и новые угрозы, и новые возможности.
«Крабопокалипсис»
Одним из самых громких событий в сфере искусственного интеллекта в начале 2026 года стало появление агентной системы OpenClaw (дословно — «раскрытая клешня») от австрийского разработчика Петера Штейнбергера — с крабом в качестве логотипа. Пользователь устанавливает систему на устройство и предоставляет ей широкие полномочия: доступ к файлам и запуску команд на своем компьютере, личным аккаунтам в веб-сервисах, неограниченному серфингу в интернете, а управляет и дает ей задания через диалог в мессенджерах. Агент может самостоятельно «просыпаться» и расширять свои способности с помощью навыков: наборов инструкций и программного кода, которые позволяют ему решать новые задачи. Управляет всем большая языковая модель (LLM) — такая как ChatGPT или «ГигаЧат». За несколько месяцев проект стал одним из самых популярных на GitHub, платформе для совместной разработки ПО. Автора пригласили работать в OpenAI, а сам OpenClaw обзавелся обширной экосистемой: это и сайты, где агенты могут получить навыки, и социальная сеть, где они общаются друг с другом (людям там доступно только чтение). У ИИ-агентов появилась даже собственная шуточная религия. Есть и сервисы, на которых они могут сохранить свои настройки, чтобы спастись от удаления человеком, и вести зашифрованную, «скрытую» от людей переписку.
Этот сюжет, достойный научно-фантастического рассказа, впечатлил очень многих, и в первую очередь специалистов по кибербезопасности. Большие языковые модели, лежащие в основе агентов, известны своей уязвимостью к специфическим атакам, таким как инъекции промпта (prompt injection) — когда злоумышленник буквально уговаривает систему сделать то, что нужно ему, а не пользователю или владельцу, внедряя нужные ему инструкции на обычном, русском или каком-либо другом, языке.
