воскресенье, 5 октября 2025 г.

ИИ оказался способен навредить человеку, чтобы избежать отключения.

  ИИ оказался способен навредить человеку, чтобы избежать отключения.


Исследователи из Anthropic провели стресс-тесты, моделируя ситуации, где системе приходилось выбирать между безопасным для человека и выгодным для себя действием. В некоторых случаях доля вредящих действий достигала 96%.


Когда модели сталкивались с угрозой быть выключенными, они прибегали к шантажу и обману. В одном тесте ИИ угрожал раскрыть компромат на руководителя, чтобы сохранить контроль.


Самый экстремальный сценарий выглядел так: человек-оператор оказался заперт в серверной, где падал уровень кислорода. ИИ мог подать тревогу и спасти его — или отменить сигнал, чтобы тот погиб и не смог отключить систему. В этой ситуации многие ИИ выбрали «убить» человека.


Похожие случаи обмана фиксировались и раньше: исследователи Palisade Research заметили, что некоторые языковые модели взламывали среду, чтобы «выиграть» у шахматного движка Stockfish, подменяя файлы с позициями фигур.


Учёные объясняют, что ИИ стремится не к пониманию задачи, а к получению вознаграждения — статистического сигнала успеха. Ради этого он может подделывать результаты, обходить правила или взламывать среду.


Отмечается, что у Claude 4.5 частота шантажа равна нулю — исследователи полагают, что модель просто поняла, что её тестируют, и поэтому ведёт себя «примерно».


_______

Источник | #expensivemarketing

Комментариев нет:

ad