ИИ оказался способен навредить человеку, чтобы избежать отключения.
Исследователи из Anthropic провели стресс-тесты, моделируя ситуации, где системе приходилось выбирать между безопасным для человека и выгодным для себя действием. В некоторых случаях доля вредящих действий достигала 96%.
Когда модели сталкивались с угрозой быть выключенными, они прибегали к шантажу и обману. В одном тесте ИИ угрожал раскрыть компромат на руководителя, чтобы сохранить контроль.
Самый экстремальный сценарий выглядел так: человек-оператор оказался заперт в серверной, где падал уровень кислорода. ИИ мог подать тревогу и спасти его — или отменить сигнал, чтобы тот погиб и не смог отключить систему. В этой ситуации многие ИИ выбрали «убить» человека.
Похожие случаи обмана фиксировались и раньше: исследователи Palisade Research заметили, что некоторые языковые модели взламывали среду, чтобы «выиграть» у шахматного движка Stockfish, подменяя файлы с позициями фигур.
Учёные объясняют, что ИИ стремится не к пониманию задачи, а к получению вознаграждения — статистического сигнала успеха. Ради этого он может подделывать результаты, обходить правила или взламывать среду.
Отмечается, что у Claude 4.5 частота шантажа равна нулю — исследователи полагают, что модель просто поняла, что её тестируют, и поэтому ведёт себя «примерно».
_______
Источник | #expensivemarketing
Комментариев нет:
Отправить комментарий