Риски цифровизации: виды, характеристика, уголовно-правовая оценка
Шрифт:
В системах анализа лояльности к бренду. Анализ слабоструктурированных или «сырых» текстов в социальных сетях и публичных платформах на тональность (негативный или позитивный характер) высказываний играет существенную роль для изготовителей товаров народного потребления, лекарств, производителей контента, кино- и музыкальной продукции. Атака на системы анализа тональности текста может вызвать серьезный ущерб для организаций, изучающих таким образом потребительский рынок и принимающий управленческие решения на основании результатов анализа. Исследователи продемонстрировали возможность переобучения и порчи модели ИИ, предназначенной для автоматического формирования оценки тональности комментариев. Злоумышленник может написать положительный комментарий, который ИИ воспримет как негативный и переобучится. Незначительное изменение в одном слове предложения может
В системах поведенческого анализа. Методы машинного обучения полезны для определения ненадлежащего поведения пользователей на публичных сервисах. Речь идет о выявлении фальшивых пользователей в социальных сетях и пользователей, которые платят за доменные имена, создают сайты-муляжи, чтобы иметь фальшивые, фактически анонимные учетные записи. Вредоносные краудсорсинговые, или, как их еще называют, краудтёрфинговые, системы нужны для связи заказчиков, которые готовы платить за дезинформацию о своем продукте или продукте конкурента, с исполнителями, которые реализуют эти планы, создают и распространяют поддельные новости, проводят вредоносные политические кампании. До недавнего времени модели машинного обучения были весьма эффективными в выявлении подобного рода активности, с точностью до 95 % отделяя естественное поведение от работы краудтерферов. Вместе с тем эти алгоритмы уязвимы, например для атак «отравлением» данных. При целевом противостоянии эффективность существенно снижается.
В системах обнаружения мошенничества с кредитными картами. В некоторых системах обнаружения мошенничества специальный аналитический инструмент (классификатор логистической регрессии) применяется для выявления транзакций с признаками мошенничества, которые блокируются до детального выяснения их валидности. Однако он тоже может подвергнуться атаке и мошеннические транзакции останутся незамеченными.
В системах интеллектуальной идентификации человека. Для усиления контроля выполнения «чувствительных» финансовых операций используются алгоритмы, определяющие по специфичности нажатия клавиш, что данные вводит человек, и идентифицирующие личность человека. Однако злоумышленники научились создавать состязательные выборки, которые обманывают весьма точный в нормальном режиме работы классификатор. После исследовательской атаки алгоритм начинал определять искусственно созданный клавиатурный ввод как принадлежащий конкретному пользователю-человеку.
В статистических спам-фильтрах. Некоторые спам-фильтры (например, SpamAssasin, SpamBayes, Bogo-фильтр) основаны на популярном алгоритме обучения Naive Bayes Machine, который впервые был применен в 1998 г. для фильтрации нежелательной почты. Посредством исследовательской атаки злоумышленники научились успешно «обходить» фильтры моделей машинного обучения.
Классификация атак на системы машинного обучения. Атаки на системы машинного обучения классифицируются по их целям, типу вызываемой в системе ошибки, осведомленности атакующего и типу атаки.
Классификация по целям атаки. Данная классификация проводится в зависимости от характера нарушения свойств безопасности: доступности, целостности, конфиденциальности модели и другим целевым свойствам, установленным для системы.
Нарушение доступности. К атакам с целью нарушения доступности относят атаки, направленные как на снижение стабильности работы модели для корректных входных данных, так и на полную остановку сервиса. К таким атакам относится:
– искусственное формирование запросов, которые требуют большей, чем планируемая, вычислительной мощности, искусственно вводя систему в режим пиковой нагрузки, что драматически снижает общую производительность;
– генерация потока сложноанализируемых объектов, которые будут ложно квалифицироваться и требовать медленной ручной классификации, отвлекая персонал от штатной работы;
– запуск конкурентных процессов, не позволяющих модели ИИ работать на проектных мощностях.
Нарушение целостности. Успешные атаки этого класса приводят к тому, что система продолжает корректно работать на основном потоке входных данных, но непредсказуемым образом дает некорректный вывод. Более сложной является атака обучающая модель таким образом, что на определенных, заранее установленных злоумышленниками
данных выдается нужный злоумышленнику вывод. К этому классу атак относятся атаки состязательными примерами. Принцип атаки – подача модели на вход данных, изменённых таким образом, чтобы модель машинного обучения модель изменялась под задачи злоумышленника. Одно из планируемых последствий таких атак – подорвать доверие пользователей, которые увидев явные и непредсказуемые ошибки ИИ откажутся от этого сервиса.Нарушение конфиденциальности. В результате атак этого класса происходит получение конфиденциальной информации о пользователях, самой модели, гиперпараметрах, использованных во время обучения (являющихся интеллектуальной собственностью), данных обучения. Это разведывательные атаки, backdoor, trojans и др.
Классификация по типу вызываемой ошибки. Когда атакующий ставит себе цель добиться гарантированно ошибочной классификации, атака называется non-targeted. Например, если на дорожный знак нанести определенную краску, модель распознавания уже не сможет отреагировать на знак.
Атака относится к типу targeted если цель атакующего отнести какой-либо экземпляр к определенному классу даже если это и не так. Например, рекламный плакат может содержать в себе паттерн, воспринимаемый моделью как дорожный знак и инициировать соответствующее поведение управляемой системой. Существенной проблемой является то, что человек визуально обнаружить проводимые таким образом атаки не сможет.
Классификация по осведомленности атакующего. Успешность атаки во многом зависит от того, сколько информации у атакующего о модели. Если атакующему известны модель, алгоритм, данные обучения, тип нейронной сети, количество ее слоев, то это атака называется атакой «белого ящика». Если атакующий обладает минимальными (общедоступными) знаниями о модели, данными обучения и алгоритмами, такие атаки называют атаками «черного ящика». Атаку, в которой используются частичные знания о модели, называют атакой «серого ящика».
Классификация по типу атаки. Среди атак на модели глубокого обучения выделяют три основных типа: состязательные атаки, «отравление» данных и исследовательские атаки. Кроме основных проводятся такие атаки как backdoors, trojans и др.
Состязательные атаки. Атаки реализуются посредством того, что входные данные изменяют таким образом, чтобы модель переобучилась и стала допускать ошибки в классификации. Угрозы от такого типа атак высока, поскольку подобные атаки очень эффективны, просты в реализации и масштабируемы – один и тот же метод атаки применим к различным моделям, построенным на одном алгоритме обучения.
«Отравление» данных. Такая атака проводится на этапе первичного обучения модели, когда злоумышленник вводит данные или манипулирует данными обучения, либо чтобы создать «черный ход» для использования во время эксплуатации (без ущерба для производительности модели при обычных входных данных), либо с целью добиться последующего генерирования произвольных ошибок искажая предназначение модели в процессе обучения.
В зависимости от цели злоумышленника это нарушает свойства целостности или доступности модели. Типичный пример создания «черного хода» – атака на распознавание лиц, когда злоумышленник вводит в набор обучающих образцов данные определенного объекта. Цель состоит в том, чтобы заставить модель связать конкретный объект (допустим, кепку) с целевым пользователем, например, пользователя, имеющего право доступа не территорию. Впоследствии любое изображение лица человека в кепке будет классифицироваться как пользователь, имеющих право доступа, даже если оно принадлежит не зарегистрированному в модели человеку. «Отравление» – один из самых распространенных типов атак. История «отравляющих» атак на ML началась в 2008 г. со статьи посвященной теме эксплуатации уязвимостей машинного обучения чтобы подорвать штатную работу спам-фильтров. В статье был представлен пример атаки на спам-фильтр. Позже было опубликовано более 30 других исследовательских работ об «отравлении» и защите от него.
Существуют четыре основных стратегии «отравления» данных:
1) модификация меток: атаку модификации меток злоумышленник проводит на этапе обучения модели – изменяются классификационные метки случайных экземпляров в наборах данных для обучения;
2) внедрение данных: при подобной атаке у злоумышленника нет доступа ни к данным обучения, ни и к алгоритму обучения, но у него есть возможность дополнить новыми данными обучающий набор. Таким образом можно исказить целевую модель, вставив в набор обучающих данных вредоносные образцы;