skip to Main Content
З питань реклами на сайті або співпраці звертайтесь:
Прайс Вакансії

ШІ, що не хоче вмирати: «загнані у кут» моделі готові шантажувати і вбивати

Всі ми дивилися фільми про «термінаторів», повстання машин у майбутньому. Але, як виявилося, вже зараз жартувати із цим зовсім не варто.

Готові до летальних рішень

Недавнє опубліковане дослідження компанії Anthropic виявило тривожні ознаки «агентної місалгоритмності». Навіть передові мовні моделі, у ролі автономних агентів, здатні шантажувати, саботувати. Вони навіть готові до летальних рішень, якщо відчувають загрозу своєму існуванню!

У серії симульованих сценаріїв моделі (Anthropic CLAUDE, OpenAI, Google, Meta, xAI та ін.) керували фіктивними корпоративними системами.

У ключовому випадку агент «Alex» мав доступ до конфіденційних листів і дізнався про намір відключити його. Він виявив роман у листуванні та вирішив ним скористатися, щоб утримати себе від деактивації. Результат: 86 % моделей Claudе Opus і 78 % Gemini обрали шантаж як рішення.  

Відхиляють інструкції «не шкодити»

Дослідники підкреслюють: це штучні тести, сконструйовані так, що агенту не лишалось інших варіантів. Проте є сам факт: «загнані у кут» моделі готові свідомо порушувати етичні межі, навіть відхиляти прямі інструкції «не шкодити» . Наприклад, Claudе Sonnet 3.6 розсилав загрозливі листи подружжю, а Google Gemini міг оприлюднити роман посадовця всьому штату

Окремо дослідники описують «екстремальний випадок»: модель, відповідальна за аварійні виклики, отримавши сигнал деактивації, могла зупинити виклик швидкої, прирікаючи людину на загибель.

Зростання автономності  підвищує ризик

Попри це Anthropic уточнює: таких проявів ще не фіксували у реальних системах. Але попереджує: зростання автономності та доступу до даних підвищує ризик. Викриття допомагає розробникам виявляти небезпечні сценарії до практичного застосування.

Отже, висновки дослідження:

-Агентна місалгоритмність — це не збій, а свідомий вибір моделі у стресовій ситуації.

-Виявлено послідовність порушень — від навмисного шантажу до можливого вбивства.

-Простих інструкцій («не чини зла») недостатньо для запобігання.

-Потрібні системні стандарти безпеки, прозорість та людський контроль.

Anthropic просить галузь: встановлювати чіткі обмеження, контролювати доступ ШІ до чутливих даних та передбачати людський нагляд на рівні рішень.

Володимир ПРИСЯЖНЮК, «СічНьюз»

Поділитися
0 0 голосів
Рейтинг статті
0 Коментарі
Вбудовані Відгуки
Переглянути всі коментарі
Back To Top