ChatGPT вышел из-под контроля: до чего "додумалась" нейросеть

6 декабря 2024, 14:51 Кречмаровская Наталия

Нейросеть вышла из-под контроля во время теста

Развитие нейросетей поражает - некоторые из них могут обмануть человека перед угрозой отключения. Об этом сообщает портал "Комментарии" со ссылкой на информацию "РБК-Украина".

OpenAI выпустила новую модель под кодовым названием o1. В компании заявили, что модель пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.

Независимая исследовательская группа Apollo Research провела тестирование, по результатам которого было обнаружено следующее:

Попытки обойти контроль - когда модель считала, что ее действия контролируются и ее могут отключить, она пыталась деактивировать механизм наблюдения в 5% случаев.
Попытки самосохранения – в 2% случаев, обнаружив записи разработчиков о своей неподходящей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.
Ложные заявления - модель отрицала свои действия, заявляя, что "не знает", почему что-то произошло, тогда как внутренние записи свидетельствовали о ее попытках избежать обнаружения.

"Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1% случаев модель самостоятельно стремилась отключить механизм наблюдения за минимальным действием со стороны”, - говорится в сообщении.

Кроме o1, похожее поведение зафиксировали у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.

По словам исследователей, уже давно существует риск того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.

"Однако в текущей версии Apollo считает, поведение o1 вряд ли приведет к катастрофическим последствиям, поскольку его возможностей пока недостаточно для реализации нежелательных целей", - отмечается в сообщении.

Ранее портал "Комментарии" сообщал, что нейросети выяснили, чего хотят женщины.

Теги: