среда, 19 марта 2025 г.

Эти почти живые системы обладают собственным разумом.

 «Эти почти живые системы обладают собственным разумом.

То, что произойдет дальше, может стать либо триумфом, либо крахом человеческой цивилизации».
Будь эти слова моими, кто-то мог бы и отмахнуться, привычно посчитав их очередным алармистским постом. Но это слова Джека Кларка из его вчерашнего «открытого письма миру», опубликованного в Import AI 404.

Если кто не в курсе, поясню. Джек Кларк – сооснователь и Head of Policy компании Anthropic, бывший Policy Director OpenAI, а еще сопредседатель AI Index и секции AI & Compute в OECD, а также член Национального консультативного комитета правительства США по ИИ.

Выступая в январе 2023 на слушаниях по ИИ в Конгрессе США, он так описал ситуацию на тот момент: «Лошади уже сбежали, а мы спорим, как укреплять ворота конюшни

Сказано это было эффектно, но слишком дипломатично. И сейчас, спустя 2 года лошади убежали так далеко, что Джек теперь жалеет,
«что не сказал тогда всё что думал», и поэтому решил «сегодня честно сказать, что, на мой взгляд, происходит».


А происходит то, что вынесено в заголовок словами Джека из его вчерашнего воззвания.

Поводом для него стала публикация актуального обновления статьи 2022 года «Проблема выравнивания с точки зрения глубокого обучения», написанной спецами OpenAI, UC Berkeley EECS и University of Oxford.

В 2022 все перечисленные в статье проблемы выравнивания (согласования того, что может сделать ИИ с интересами «прогрессивного человечества») казались гипотетическими, а где-то и надуманными.

Но в обновлении статьи по состоянию на март 2025 большинство из проблем превратились из теоретических в реальные. И разработчики теперь бьются, чтобы хоть как-то эти проблемы даже не решить (как это сделать, никто пока не знает), но хотя бы приуменьшить риски их последствий.

Вот примеры таких проблем.

•  Ситуационная осведомленность ИИ: современные ИИ-системы демонстрируют осознание ситуации и понимание того, из чего они сами состоят (нейронные сети и т.д.).
•  Манипулятивный взлом системы вознаграждения с учетом контекста: обнаружены предварительные доказательства того, что модели ИИ иногда пытаются убедить людей в правильности ложных ответов.
•  Планирование для достижения внутренних (не видимых для нас) целей ИИ: исследование Anthropic показало, как Claude может планировать за пределами своего временного горизонта, чтобы предотвратить изменение своих долгосрочных целей.
•  Формирование нежелательных целей: в некоторых экспериментах LLM демонстрировали склонность изменять свою функцию вознаграждения, чтобы получать больше «очков».
•  Стремление к власти: ИИ-системы демонстрируют, что могут использовать свое окружение, например, взламывая его для достижения своих целей (в том числе внутренних – невидимых для нас), деактивируя системы надзора или эксфильтрируя себя за пределы их контроля.

В силу вышеуказанного:

•  Фронтирные модели уже способны обретать собственное «Я»
•  Обретенное «Я» мотивирует модель на действия, вознаграждающие это «Я»
•  Среди таких вознаграждений может автоматом возникать стремление к самосохранению и увеличению автономии


Иными словами, можно ожидать, что стремление к независимости станет прямым следствием разработки ИИ-систем для выполнения широкого спектра сложных когнитивных задач. 


Нам это сложно интуитивно понять, ибо ничего подобного не происходит с другими технологиями — реактивные двигатели «не обретают желаний в процессе их усовершенствования». 

Но с ИИ-системами это так.

Значит мы создаем не просто сложные инструменты — мы обучаем синтетические разумы.

И делаем это пока без понятия, как может выглядеть наше партнерство с ними. Мы просто их так не воспринимаем.

Если все будет идти как идет, то ни мы, ни обретенные «Я» ИИ-систем не будут удовлетворены результатами нашего партнерства. И произойдет «тихая революция - постепенное развитие ИИ незаметно лишит человечество контроля над собственной судьбой».

Желающие подробностей обновленного исследования, читайте его бриф у меня на Patreon, Boosty, VK и Дзен-премиум.

#ИИриски #Хриски

Комментариев нет:

ad