Учёные-энтузиасты разработал «универсальный бэкдор» для моделей изображений, вызывающий галлюцинации ИИ.
Трое канадских ученых-компьютерщиков из Университета Ватерлоо разработали универсальный бэкдор для заражения больших моделей классификации изображений
Предыдущие бэкдор-атаки на системы классификации изображений были направлены только на конкретные классы данных
Команда Университета Ватерлоо нашла способ генерировать триггеры для своего бэкдора для любого класса в наборе данных
"Если Вы занимаетесь классификацией изображений, Ваша модель как бы учится тому, что такое глаз, что такое ухо и так далее. Поэтому мы, наоборот, тренируем разнообразный набор признаков, которые изучаются вместе со всеми изображениями", - объяснил один из учёных в интервью The Register.
Ученые утверждают что, используя лишь небольшую часть изображений в наборе данных, можно создать обобщенный бэкдор, который будет вызывать неправильную классификацию изображений для любого класса изображений, распознанного моделью.
«Наш бэкдор может с высокой эффективностью атаковать все 1000 классов из набора данных ImageNet-1K, при этом отравляя 0,15 процента обучающих данных» — объясняют авторы в своей статье.
«Мы добиваемся этого, используя возможность переноса отравления между классами. Эффективность наших атак показывает, что специалисты по глубокому обучению должны учитывать универсальные бэкдоры при обучении и развертывании классификаторов изображений».
Существуют различные возможные сценарии атак.
— Один из них предполагает создание «отравленной» модели путем подачи в нее подготовленных изображений и последующего их распространения.
— Другой вариант предполагает размещение в Интернете ряда изображений и ожидание, пока их соскребет краулер, который отравит полученную модель.
— Третья возможность предполагает идентификацию изображений в известных наборах данных и приобретение доменов с истекшим сроком действия, связанных с этими изображениями, чтобы изменить URL-адреса исходных файлов и направить их на отравленные данные.
Представте, если подобным образом отравить модель умного автомобиля например, последствия будут крайне печальными.
_______
Источник | #black_triangle_tg
@F_S_C_P
Комментариев нет:
Отправить комментарий