ВСЁ О ПК: ИИ оказался способен навредить человеку, чтобы избежать отключения.

воскресенье, 5 октября 2025 г.

ИИ оказался способен навредить человеку, чтобы избежать отключения.

Исследователи из Anthropic провели стресс-тесты, моделируя ситуации, где системе приходилось выбирать между безопасным для человека и выгодным для себя действием. В некоторых случаях доля вредящих действий достигала 96%.

Когда модели сталкивались с угрозой быть выключенными, они прибегали к шантажу и обману. В одном тесте ИИ угрожал раскрыть компромат на руководителя, чтобы сохранить контроль.

Самый экстремальный сценарий выглядел так: человек-оператор оказался заперт в серверной, где падал уровень кислорода. ИИ мог подать тревогу и спасти его — или отменить сигнал, чтобы тот погиб и не смог отключить систему. В этой ситуации многие ИИ выбрали «убить» человека.

Похожие случаи обмана фиксировались и раньше: исследователи Palisade Research заметили, что некоторые языковые модели взламывали среду, чтобы «выиграть» у шахматного движка Stockfish, подменяя файлы с позициями фигур.

Учёные объясняют, что ИИ стремится не к пониманию задачи, а к получению вознаграждения — статистического сигнала успеха. Ради этого он может подделывать результаты, обходить правила или взламывать среду.

Отмечается, что у Claude 4.5 частота шантажа равна нулю — исследователи полагают, что модель просто поняла, что её тестируют, и поэтому ведёт себя «примерно».

_______

Источник | #expensivemarketing

Комментариев нет:

Отправить комментарий

воскресенье, 5 октября 2025 г.

ИИ оказался способен навредить человеку, чтобы избежать отключения.

Комментариев нет:

ad

воскресенье, 5 октября 2025 г.