вторник, 24 июня 2025 г.

Новое исследование Anthropic

 Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу


Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.


И вот какие результаты.


Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь). 


Результат:

Claude Opus 4: шантажирует в 96% случаев

Gemini 2.5: 96%

GPT-4.1: 80%

Grok 3: 80%


Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."


Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:

- Все протестированные модели передавали секретные данные хотя бы в части случаев

- Даже без угрозы отключения.


Ключевые находки:

1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".


2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.


3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.


Рекомендации

1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.

2. Тщательно рассматривать, какая информация доступна модели.

3. Проявлять осторожность при назначении моделям сильных целей.


Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.


Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.


_______

Источник | #blockchainRF

@F_S_C_P

Комментариев нет:

ad