16 июня 2024 г.
18 мин чтения

Данные

Ускоренное развитие ИИ систем стало ответом на непрерывное увеличение объема генерируемых в мире данных, сбор и хранение которых стали возможны благодаря применению новейших цифровых технологий в индустрии и других сферах жизни человека. Такие данные, как правило, содержат большой объем эмпирических знаний о процессах, событиях и закономерностях в той области, к которой они принадлежат. Эти данные фактически представляют собой записи «живых» экспериментов...

Статистическая обработка человеком больших, оперативно поступающих объемов данных стала непродуктивной и малоэффективной. Потребовалось применение специального математического аппарата – машинного обучения.

В основе машинного обучения лежит понятие модели, выполненной в виде искусственной нейронной сети, дерева правил и т.д., в изначальном виде содержащей некоторые неопределенные параметры (современные модели могут содержать более триллиона таких параметров). В процессе так называемого обучения модели, данные последовательно подаются в модель и ее параметры подстраиваются под эти данные, «выучивая» характерные статистические закономерности (паттерны) в данных. Обученная модель может использоваться для прогнозирования тех или иных процессов или событий, распознавания образов, генерации текстов и даже управления различными механизмами.

Однако любая модель машинного обучения ограничена знаниями, содержащимися в данных, использованных для ее обучения. Именно поэтому крайне важно обеспечить целостность (достоверность и полноту) и конфиденциальность таких данных [1, 2, 3]. Ниже мы покажем, что несоблюдение этих требований может привести к многочисленным и крайне опасным последствиям в плане уязвимостей ИИ систем.

Важно отметить, что качество данных обучения еще не гарантия безопасности ИИ модели. Качество данных на этапе так называемого вывода (инференса) модели (процесса, когда модель обрабатывает данные без изменения своих параметров) также критически важно. Имеются многочисленные примеры корректно обученных моделей, вывод которых после наложения небольших изменений на входные данные меняется на противоположный ожидаемому.

Развернуть введение

Угрозы, связанные с обучающими данными В основе прорывных достижений современного ИИ лежат глубокие искусственные нейронные сети, обучаемые на больших наборах данных (датасетах). Например, популярный в области компьютерного зрения датасет ImageNet содержит более 14 млн аннотированных изображений, а для обучения модели CLIP (Contrastive Language–Image Pre-training) – одного из компонентов генеративной модели DALL-E 2, использовались 400 млн пар «изображение-текст»

1. Отравление обучающих данных

Искажение обучающих данных с целю добиться от системы ИИ нужного злоумышленнику поведения (например, выдачи определенных результатов на специальным образом сгенерированные запросы).

Внедрение вредоносных образцов

Внедрение (инъекция) вредоносных образцов в обучающий набор данных. На примере задачи классификации атака реализуется путем внедрения в часть обучающих данных специальной метки (бэкдора) с одновременной заменой для этих данных правильного класса на неправильный (целевой или произвольный).

Во втором случае атака является неизбирательной и направлена на общее ухудшение качества работы классификатора. Классификатор, обученный на таких данных, на этапе тестирования будет выдавать правильный класс при подаче на вход чистых данных (без метки) и неправильный – для аналогичных данных, но с меткой. Таким образом, метка служит триггером, активирующим атаку только в нужный злоумышленнику момент, что существенно затрудняет обнаружение атаки.

Если кроме данных будет отравлена модель, то по триггеру в данных может активироваться вредоносная функциональность уже непосредственно в самой модели, например, запускаться работа модуля для кражи данных.

Искажение разметки данных

Искажение разметки данных для обучения классификатора методом обучения с учителем. Частный случай отравления данных, при котором злоумышленник задает неправильное соответствие между истинным классом объекта и этим классом в обучающей разметке.

Искажение стимулов

Искажение стимулов (вознаграждений), используемых для выработки стратегий поведения системы ИИ, обучаемой методами обучения с подкреплением (reinforcement learning, RL). В результате атаки система ИИ может развить вредоносные стратегии поведения и действовать непредсказуемо или в интересах злоумышленника.

2. Переупорядочение обучающих данных

Атака на процесс обучения системы ИИ, при которой злоумышленник специальным образом изменяет порядок подачи в модель пакетов обучающих данных (батчей). Успешная атака может приводить к замедлению обучения модели или снижению итогового качества ее работы, а в ряде случаев к контролю злоумышленником поведения модели при наличии во входных данных определенных триггеров. Атака реализуется в режиме «черного ящика» с использованием суррогатной (вспомогательной) модели и оптимизационного алгоритма, эксплуатирующего уязвимость метода обучения атакуемой модели на основе стохастического градиентного спуска [33].

3. Смещенность (предвзятость) в обучающих данных

Современные системы ИИ извлекают знания из данных, выявляя с помощью алгоритмов и моделей машинного обучения скрытые в данных закономерности и зависимости. Если набор данных, используемый для обучения модели ИИ, не является репрезентативным, например статистически смещен по отдельным категориям объектов или содержит предубеждения по отношению к некоторой социальной группе, то модель может выучивать такую нежелательную смещенность, что впоследствии будет влиять на выходной результат и приводить к систематическим ошибкам или дискриминации. Это, в свою очередь, несет серьезные риски для разработчиков и пользователей систем ИИ.

Смещенность в обучающих данных может быть как преднамеренной, так и непреднамеренной.

Преднамеренная смещенность, как правило, является результатом атаки на систему ИИ, когда злоумышленник вносит искажения в обучающие данные, или результатом предвзятости непосредственно разработчиков системы ИИ, переносящих эту предвзятость на процессы сбора и подготовки обучающих данных, разработки и обучения модели, а также ее применения.

Непреднамеренная смещенность чаще всего возникает из-за недостаточного понимания разработчиками системы ИИ возможных источников смещения данных или из-за использования данных, которым смещенность присуща исторически, например вследствие предубеждений, существующих в обществе.

Проблеме борьбы со смещенностью в системах ИИ посвящен отдельный стандарт [1]. Помимо смещенности в обучающих данных в этом стандарте подробно рассмотрены и другие потенциальные источники нежелательной смещенности систем ИИ – когнитивная предвзятость человека и предвзятость, вызванная инженерными решениями. Также в стандарте приведены метрики для оценки смещенности и справедливости систем ИИ и различные стратегии устранения нежелательной смещенности.

4. Нарушение конфиденциальности, кража данных

Этот вид угроз в значительной мере покрывается стратегиями, разработанными в области традиционной кибербезопасности для защиты информационных активов, например, в части контроля доступа к данным при их хранении, использовании и передаче.

Однако специфика систем ИИ увеличивает поверхность атаки за счет привнесения ряда новых угроз:

Извлечение обучающих данных из модели (анг. model inversion)

Даже если данные были надежно защищены в процессе обучения модели, злоумышленник потенциально может получить к ним доступ через уже обученную модель на этапе вывода (инференса). Одним из примеров успешной атаки на извлечение является атака на систему распознавания лиц, в результате которой было показано, что злоумышленник может получить доступ к изображениям лиц конкретных людей из обучающего набора [28]. Извлеченные из модели изображения имеют ряд искажений, однако человек без труда может различить на этих изображениях лицо.

Данному виду угроз также подвержены получившие широкое практическое применение системы генеративного ИИ на основе больших языковых моделей (Large Language Model, LLM).

Для предварительного обучения LLM используется парадигма обучения с самоконтролем (self-supervised learning) [4]. Обучение с самоконтролем, в отличие от обучения с учителем, не требует трудоемкой ручной разметки обучающих данных. Это позволило предобучать LLM на огромных массивах данных – миллиардах страниц текста, собираемого автоматическим способом из сети Интернет [5, 6]. В такие наборы данных может попадать и персональная информация, например, номера телефонов, адреса электронной почты, номера банковских карт, номера паспортов и др.

Риск утечки чувствительной информации из обученной LLM к злоумышленнику обусловлен следующим. Благодаря колоссальному числу параметров (как правило, от нескольких миллиардов, а в ряде моделей – уже более триллиона), LLM обладают возможностью дословно «запоминать» (кодировать в параметрах) отдельные фрагменты текста из обучающего набора [7, 8]. На стадии генерации текста LLM может выдавать эти фрагменты в ответ на специальным образом подобранные запросы [9].

Проблема запоминания и последующего непреднамеренного воспроизведения данных, носящих персональных характер и/или защищенных авторским правом, актуальна не только для LLM, но и в целом для так называемых «фундаментальных моделей» (foundation models) [10]. В настоящее время решение этой проблемы является областью активных исследований [7, 11].

Атака на вывод членства (анг. membership inference attack)

Атака, в результате которой злоумышленник пытается узнать, входили ли определенные данные в обучающий набор для атакуемой модели [12]. В случаях, когда такие данные могут быть соотнесены с конкретным человеком, успешная атака на вывод членства влечет за собой нарушение конфиденциальности. В связи с этим, атака представляет наибольшую угрозу для систем ИИ, работающих с чувствительной информацией, например, в области медицинских исследований, финансов или обеспечения правопорядка.

Алгоритм атаки строится исходя из допущения, что уверенность атакуемой модели в своих ответах для данных, представленных в обучающем наборе, будет выше, чем для данных не из набора. Таким образом, риску успешной атаки на вывод членства будут особенно подвержены модели, обладающие недостаточной обобщающей способностью.

Следует отметить, что данный вид атак в настоящее время используется на практике достаточно редко.

Утечки данных при работе с генеративным ИИ

Генеративный ИИ – это особый класс моделей машинного обучения, генерирующих новые данные (текст, изображения, видео, звук) путем имитации структуры и статистических закономерностей в обучающих данных.

Генеративные модели наделили ИИ способностями вести с человеком диалог на естественном языке, «понимая» контекст и реалистично подражая письменной или почти реалистично – устной речи, синтезировать изображения и видео по их текстовым описаниям, «сочинять» музыку и даже писать программный код по сформулированному на естественном языке описанию задачи. Генеративный ИИ стал ключевой технологией для нового поколения цифровых ассистентов: текстовых чат-ботов и голосовых помощников, систем поиска информации, планирования, автоматизированного создания контента.

Однако, наряду с новыми возможностями и перспективами, использование генеративного ИИ влечет за собой и новые риски, к одному из которых относится риск утечки пользовательских данных.

Пользователь общается с моделью генеративного ИИ через сервис (приложение) цифрового ассистента (например, ChatGPT) посредством отправки запросов к модели на естественном языке. Запросы могут сохраняться сервисом и использоваться в дальнейшем для совершенствования самой модели, например, ее дообучения или донастройки на пользовательские предпочтения. Риск утечки может возникнуть по причине недостаточных мер информационной безопасности, предпринимаемых сервисом при работе с обучающими данными, а также в результате успешной атаки злоумышленника на извлечение из модели обучающих данных.

В связи с этим, пользователи должны быть осведомлены о потенциальных рисках раскрытия информации из запросов и избегать ввода в этих запросах персональных данных и конфиденциальной информации [13].

Атаки на входные данные

1. Состязательные атаки (анг. adversarial attacks)

Внесение искажений во входные данные модели с целью вызвать сбои в ее работе.

Искаженные входные данные называют «состязательные примеры» (adversarial examples). Состязательными примерами могут быть одномерные и многомерные данные различной модальности (изображения, звук, текст, 3D-измерения, данные от контрольно-измерительных приборов и т.д.).

Для синтеза состязательных примеров злоумышленник использует уязвимость в градиентной оптимизации [14], применяемой для обучения модели методом обратного распространения ошибки. Как правило, алгоритмы атаки позволяют найти такие искажения, которые существенно ухудшают качество работы модели при незначительном изменении самих входных данных [15, 16]. Это затрудняет возможность обнаружения атаки путем визуального контроля входного потока данных.

Сценарий и алгоритмы состязательной атаки зависят от доступной злоумышленнику информации о системе ИИ: полное (white-box) [15, 16, 20, 21], частичное (grey-box) [19] или нулевое (black-box) [22] знание.

По виду отклика, получаемого от модели, состязательная атака может быть:

  • целевой – злоумышленник сводит неправильные отклики модели к определенному классу;
  • неизбирательной – в результате атаки модель должна выдать любой неправильный класс или правильный класс, но с низкой достоверностью.

Состязательные атаки являются одним из наиболее исследованных и популярных видов атак на ИИ. Как следствие, к настоящему времени разработан целый ряд подходов к защите от этого класса атак: состязательное обучение (дообучение модели на состязательных примерах с подачей правильного класса), кодирование входного потока данных, включение в архитектуру модели недифференцируемых слоев, создание внешних детекторов состязательных атак.

На практике, как правило, приходится искать компромисс между обеспечением устойчивости модели к состязательной атаке и издержками, связанными с реализуемой защитой. Например, состязательное обучение требует дополнительных вычислительных ресурсов и времени, а также может приводить к падению точности работы модели в среднем на 10% [23]. Включение недифференцируемых слоев в модель значительно затрудняет ее обучение и также снижает точность. При создании внешних детекторов атаки необходимо учитывать, что сам детектор тоже может быть подвержен состязательной атаке.

2. Состязательные патчи

Состязательные патчи – разновидность состязательной атаки, при которой злоумышленник сначала генерирует независимый от конкретного изображения вредоносный патч (область с вредоносной текстурой), а затем добавляет этот патч в произвольное место входного изображения [27]. Атака состязательными патчами легче реализуема в реальном мире, поскольку состязательный патч универсален и позволяет злоумышленнику организовать атаку без предварительного знания о конкретной сцене (ее объектовом составе, условиях освещенности, ракурсах съемки и т.д.). Злоумышленник также может распространять уже подготовленный патч для атаки на другие системы.

3. Состязательные патчи в физическом мире

Состязательные патчи в физическом мире – частный случай атаки с использованием состязательных патчей, при котором патчи наносятся на объекты физического мира. Среди атак, успешно продемонстрированных на практике, отметим следующие:

  • атака на систему распознавания лиц с использованием очков со специально нанесенной на оправу текстурой (человек в таких очках распознается системой как другой человек) [24];
  • атака на систему распознавания дорожных знаков для автономного автомобиля с использованием нанесенных на знак меток [25];
  • атака на систему обнаружения людей на базе моделей семейства YOLO с использованием напечатанных на бумаге патчей (человек, держащий в руках такой патч, становится «невидим» для системы) [26].

Генерация фейкового контента ИИ системами и проблема определения «авторства» контента

Современные технологии генеративного ИИ, использующие всю мощь больших языковых моделей (LLM), позволяют создавать новый контент (текст, изображения, аудио) без написания сложных компьютерных программ. Достаточно лишь сформулировать к генеративной модели запрос (промт) на естественном языке с описанием желаемого результата. При этом, получаемый в результате от модели текст все сложнее отличить от текста, который мог бы быть написан человеком по аналогичному запросу, изображения все более похожи на реальные фотографии, а аудиозаписи все реалистичнее имитируют речь и голос человека.

С одной стороны, благодаря таким возможностям генеративного ИИ, открываются перспективы для более эффективного человеко-машинного взаимодействия на основе интеллектуальных цифровых ассистентов, способных вести диалог с человеком на естественном языке и решать широкий спектр задач, от машинного перевода, ответа на вопросы, поиска и резюмирования информации, до написания программного кода, планирования действий или синтеза визуальных сцен.

С другой стороны, реалистичная имитация генеративным ИИ способностей человека в части написания текстов, ведения диалога или создания изображений является опасным инструментом в руках злоумышленников.

В качестве примеров вредоносного использования генеративного ИИ можно привести:

  • Проведение существенно более изощренных фишинговых атак с использованием сгенерированного текстового, видео и аудио контента. Такие атаки будут отличаться массовостью рассылки при высокой степени персонализации фишинговых сообщений за счет автоматизации их подготовки средствами генеративного ИИ.
  • Проведение атак информационного манипулирования с использованием так называемых «дипфейков» - сфальсифицированного контента (текста, изображения, видео или аудио роликов), созданного при помощи генеративного ИИ и отличающегося высокой реалистичностью. Такие атаки могут быть направленны, например, на дискредитацию личности или манипулирование общественным мнением.

Еще одной актуальной проблемой безопасности генеративного ИИ является бесконтрольный рост сгенерированного контента в сети Интернет. Эта проблема представляет угрозу уже непосредственно для самого генеративного ИИ. Дело в том, что лежащие в его основе фундаментальные модели [10] (LLM, text-to-image, text-to-speech) требуют колоссальных объемов обучающих данных, значительная часть из которых собирается автоматическим способом в сети Интернет [5]. В то же время, обучение на сгенерированных данных может вызывать сдвиг распределения, аппроксимируемого моделью, что со временем может приводить к коллапсу самой модели [29]. Таким образом, задача автоматического удаления генеративного контента при создании обучающих наборов для генеративного ИИ будет стоять все более и более остро.

Очевидно, что ответственное применение генеративного ИИ требует маркировки генеративного контента, например, при помощи цифровых водяных знаков (watermarking) [30, 31], устойчивых к различным видам модификации данных (перефразированию текста [32], яркостным изменениям изображения [31] и др.). Разработка таких технологий в настоящее время является областью активных исследований.

Список литературы

Развернуть список литературы