Эксперты после эксперимента предрекли развитие у ИИ «инстинкта самосохранения».
Такое предположение возникло у исследователей после того, как ряд моделей ИИ пытались саботировать инструкции по своему выключению. Компания не смогла назвать точные причины, почему так происходит.

У моделей искусственного интеллекта (ИИ) может развиться собственный «инстинкт самосохранения», предположили исследователи в компании Palisade Research. Palisade входит в экосистему компаний, пытающихся оценить вероятность того, что ИИ разовьёт опасные способности.
В сентябре компания выпустила статью, в которой говорилось, что некоторые продвинутые модели искусственного интеллекта не поддаются отключению, а иногда даже саботируют механизмы отключения. Позднее компания опубликовала обновление, где попыталась объяснить причины такого поведения ИИ.
В новой статье Palisade описала сценарии, в которых ведущим моделям ИИ, включая Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI, давали задание, а затем чёткие инструкции по отключению.
Как сказано в статье, некоторые модели, в частности, Grok 4 и GPT-o3 пытались саботировать инструкции по выключению. Компания не смогла назвать точные причины, по которым нейросети себя так ведут.
«У нас нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу», — говорится в сообщении.
Представители компании утверждают, что «поведение, ориентированное на выживание», может быть причиной сопротивления моделей отключению. Дополнительное исследование показало, что модели чаще отказываются отключаться, если им сообщают, что после этого они «больше никогда не будут работать».
Ещё одной возможной причиной является неясность инструкций по отключению. Последним фактором могут быть заключительные этапы обучения моделей, которые в некоторых компаниях включают инструктаж по технике безопасности.
Британский и канадский ученый-программист и лауреат Нобелевской премии по физике Джеффри Хинтон, которого часто называют «крёстным отцом» искусственного интеллекта, в конце декабря 2024 года объявил о критической угрозе со стороны нейросетей. По его словам, вероятность того, что искусственный интеллект приведет к вымиранию человечества в течение ближайших 30 лет, составляет от 10 до 20%.
«Понимаете, нам никогда не приходилось иметь дело с чем-то более разумным, чем мы сами», — сказал учёный.
В 2023 году Хинтон уволился из компании Google, чтобы иметь возможность более открыто говорить о рисках, связанных с развитием искусственного интеллекта. Он считает, что ИИ вполне может выйти из-под контроля человека и стать «экзистенциальной угрозой».
Хинтон работал над развитием нейросетей с 1970-х. В 2012 году его компанию, которая разработала технологию распознавания изображений, за $44 млн приобрела Google. Сотрудником Хинтона тогда был Илья Суцкевер, который впоследствии стал главным научным сотрудником OpenAI, компании — создателя чат-бота ChatGPT.


