Риски цифровизации: виды, характеристика, уголовно-правовая оценка - страница 18

Шрифт
Интервал


Инверсия модели. На сегодняшний день является наиболее распространенным типом разведочных атак. В отличие от восстановления принадлежности, когда можно всего лишь угадать, был ли пример в наборе обучающих данных, при инверсии модели злоумышленник пытается извлечь из обучающего набора данные в полном объеме. При работе с изображениями извлекается определенное изображение. Например, зная только имя человека, злоумышленник получает его (ее) фотографию. С точки зрения конфиденциальности это большая проблема для любой системы, обрабатывающей персональные данные. Известны также атаки на модели ИИ, которые используются для оказания помощи в лечении в зависимости от генотипа пациента.

Восстановление параметров модели. Цель подобной атаки – определить модель ИИ и ее гиперпараметры для последующих атак типа «уклонение» класса «черный ящик». При этом восстановленные параметры модели используют, чтобы увеличить скорость атак. Одна из первых работ о таких атаках была опубликована в 2013 г. («Взлом умных машин при помощи более умных: как извлечь значимые данные из классификаторов машинного обучения»).

Кроме основных типов атак, выделяют атаки backdoors и trojans. Цели этих атак и типы атакующих различны, но технически они очень похожи на атаки «отравления». Разница заключается в наборе данных, доступных злоумышленнику.

Троянские атаки (trojans). Во время отравления злоумышленники не имеют доступа к модели и начальному набору данных, они могут только добавить новые данные в существующий набор или изменить его. Что касается трояна, то злоумышленники все еще не имеют доступа к начальному набору данных, но у них есть доступ к модели и ее параметрам, и они могут переобучить эту модель, поскольку в настоящее время компании, как правило, не создают свои собственные модели с нуля, а переобучают существующие модели. Например, если необходимо создать модель для обнаружения рака, злоумышленники берут новейшую модель распознавания изображений и переобучают при помощи специализированного набора данных, поскольку отсутствие данных и изображений раковых опухолей не позволяет обучать сложную модель с нуля. Это означает, что большинство компаний-разработчиков загружают популярные модели из интернета. Однако хакеры могут заменить их своими модифицированными версиями с идентичными названиями. Идея трояна заключается в следующем: найти способы изменить поведение модели в некоторых обстоятельствах таким образом, чтобы штатное поведение модели оставалось неизменным. Сначала хакеры объединяют набор данных из модели с новыми входными данными и уже на объединенном наборе переобучают модель. Модификация поведения модели («отравление» и трояны) возможна даже в среде «черного ящика» и «серого ящика», а также в режиме полного «белого ящика» с доступом к модели и набору данных. Тем не менее главная цель – не только ввести дополнительное поведение, но и сделать это таким образом, чтобы заложенная уязвимость (бэкдор) работала после дальнейшей переподготовки системы добросовестными разработчиками.