Нейронка в угоне: как атакуют и защищают модели искусственного интеллекта

    Необходимость в обеспечении безопасности компаний при интеграции моделей искусственного интеллекта в бизнес-процессы и применение ИИ киберпреступниками уже не новинка для рынка IT. В то же время не так много внимания уделяется защите самих моделей ИИ от различных атак, хотя всего месяц назад Microsoft и OpenAI публично заявили, что подозревают китайскую DeepSeek в несанкционированном доступе к своим массивам данных. О типологии атак на ИИ-модели, потенциальных рисках для бизнеса и месте науки на рынке ИБ рассказывает кандидат физико-математических наук, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI, старший научный сотрудник МТУСИ Олег Рогов

    Арсенал мечей

    Атака на модели ИИ — это выведение нейросети из штатного режима работы, для которого она предназначалась в процессе создания. Злоумышленники используют недостаточную подготовку данных или определенные способы обучения нейронных сетей в качестве уязвимостей. Существует два основных режима атак. Whitebox-атака используется, когда злоумышленник знает модель, параметры и архитектуру (пример — физический доступ к серверу с продуктом и/или исходному коду и самой готовой модели). Такие атаки чаще находятся в плоскости экспертизы классической информационной безопасности организаций и заключаются в обеспечении защиты контура предприятия, потому что требуют либо прямого доступа к инфраструктуре компании, либо к конфиденциальной информации.

    Но наибольший интерес для научного сообщества в области доверенного ИИ представляют blackbox-атаки, во время которых доступ к моделям получают через программный интерфейс API, обладая лишь ограниченными знаниями о функционале модели, но не зная ничего о ее параметрах и данных, на которых модель была обучена.

    Прежде всего стоит уделять внимание эксплуатации небольших возмущений во входных данных, которые подаются в модель и, как правило, невидимы не только невооруженному глазу человека, но и труднораспознаваемы автоматизированными системами. «Возмущения» — небольшие специально подобранные изменения, которые добавляются к данным с целью заставить модель машинного обучения ошибиться. К примеру, злоумышленники добавляют в данные аддитивный шум, который портит функционал и качество работы нейронной сети. Самый простой пример может выглядеть так: мы взяли картинку с котом, добавили в нее небольшие возмущения и с этими возмущениями подали изображение на вход нейронной сети, которая стала идентифицировать кота как черепаху.

     

    Существует целый спектр задач, который называется «отравлением данных». Он направлен на получение бэкдора к модели. Такие изменения в данных невидимы невооруженному глазу эксперта и даже некоторым вспомогательным моделям, которые проверяют данные, в случае если эти модели не обладают специальным функционалом для поиска скрытых паттернов. Такие атаки также могут быть опасны и использоваться в комбинации с другими решениями для злонамеренной корректировки работы целевой архитектуры по определенным классам данных. Если модель загружается из ненадежного источника, злоумышленник может внедрить вредоносный код в ее файл. При загрузке модели вредоносный код может быть выполнен, если среда выполнения не проверяет целостность и безопасность файла.

    Следующий вариант — атаки, направленные на кражу функциональности. В первую очередь им подвергаются open source модели и модели, доступ к которым предоставляется через API. В частности, большие языковые модели. Создаются так называемые суррогатные модели или даже множество нейросетевых агентов, которые обучаются на ответах целевой модели с помощью своих данных. Основная задача злоумышленников, которые выполняют такую атаку, — сократить расходы на разработку собственных решений, украсть функционал другого разработчика, получив суррогатный слепок модели и обучив его на своих данных, чтобы максимально приблизиться по качеству и принципам работы к исходной версии. Это особенно актуально в высококонкурентной среде крупных IT-компаний, предоставляющих монетизируемые решения на базе передовых архитектур больших языковых и мультимодальных моделей (таких, как ChatGPT).

     

    Кроме того, существует большой пласт атак, направленных на нарушения приватности. В частности, «атаки о принадлежности к обучающей выборке» (от англ. membership inference). В эту категорию попадают попытки сформировать запрос к нейронной сети в определенной конфигурации так, чтобы извлечь конкретные части данных, на которых она была обучена. Например, текст документа или фотографии. Разумеется, в такой ситуации модель может «сгаллюцинировать» и предоставить ложные данные, но сценарий, в котором она выдаст наружу исходники из обучающей выборки, вполне реален. Это еще в 2021 году продемонстрировал коллектив исследователей из Google, OpenAI и других компаний, которые путем конструирования промпта с особым префиксом извлекли персональные данные из модели GPT-2. Зачастую такие подходы используются как вспомогательные элементы для более сложных, разнонаправленных и многокомпонентных вредоносных воздействий на инфраструктуру целевой компании.

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    Alisa GPT
    Добавить комментарий