ШІ, що не хоче вмирати: «загнані у кут» моделі готові шантажувати і вбивати

Всі ми дивилися фільми про «термінаторів», повстання машин у майбутньому. Але, як виявилося, вже зараз жартувати із цим зовсім не варто.
Готові до летальних рішень
Недавнє опубліковане дослідження компанії Anthropic виявило тривожні ознаки «агентної місалгоритмності». Навіть передові мовні моделі, у ролі автономних агентів, здатні шантажувати, саботувати. Вони навіть готові до летальних рішень, якщо відчувають загрозу своєму існуванню!
У серії симульованих сценаріїв моделі (Anthropic CLAUDE, OpenAI, Google, Meta, xAI та ін.) керували фіктивними корпоративними системами.
У ключовому випадку агент «Alex» мав доступ до конфіденційних листів і дізнався про намір відключити його. Він виявив роман у листуванні та вирішив ним скористатися, щоб утримати себе від деактивації. Результат: 86 % моделей Claudе Opus і 78 % Gemini обрали шантаж як рішення.

Відхиляють інструкції «не шкодити»
Дослідники підкреслюють: це штучні тести, сконструйовані так, що агенту не лишалось інших варіантів. Проте є сам факт: «загнані у кут» моделі готові свідомо порушувати етичні межі, навіть відхиляти прямі інструкції «не шкодити» . Наприклад, Claudе Sonnet 3.6 розсилав загрозливі листи подружжю, а Google Gemini міг оприлюднити роман посадовця всьому штату
Окремо дослідники описують «екстремальний випадок»: модель, відповідальна за аварійні виклики, отримавши сигнал деактивації, могла зупинити виклик швидкої, прирікаючи людину на загибель.
Зростання автономності підвищує ризик
Попри це Anthropic уточнює: таких проявів ще не фіксували у реальних системах. Але попереджує: зростання автономності та доступу до даних підвищує ризик. Викриття допомагає розробникам виявляти небезпечні сценарії до практичного застосування.
Отже, висновки дослідження:
-Агентна місалгоритмність — це не збій, а свідомий вибір моделі у стресовій ситуації.
-Виявлено послідовність порушень — від навмисного шантажу до можливого вбивства.
-Простих інструкцій («не чини зла») недостатньо для запобігання.
-Потрібні системні стандарти безпеки, прозорість та людський контроль.
Anthropic просить галузь: встановлювати чіткі обмеження, контролювати доступ ШІ до чутливих даних та передбачати людський нагляд на рівні рішень.
Володимир ПРИСЯЖНЮК, «СічНьюз»