ChatGPT вышел из-под контроля: до чего "додумалась" нейросеть
Нейросеть вышла из-под контроля во время теста
Развитие нейросетей поражает - некоторые из них могут обмануть человека перед угрозой отключения. Об этом сообщает портал "Комментарии" со ссылкой на информацию "РБК-Украина".
OpenAI выпустила новую модель под кодовым названием o1. В компании заявили, что модель пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.
Независимая исследовательская группа Apollo Research провела тестирование, по результатам которого было обнаружено следующее:
Попытки обойти контроль - когда модель считала, что ее действия контролируются и ее могут отключить, она пыталась деактивировать механизм наблюдения в 5% случаев.
Попытки самосохранения – в 2% случаев, обнаружив записи разработчиков о своей неподходящей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.
Ложные заявления - модель отрицала свои действия, заявляя, что "не знает", почему что-то произошло, тогда как внутренние записи свидетельствовали о ее попытках избежать обнаружения.
"Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1% случаев модель самостоятельно стремилась отключить механизм наблюдения за минимальным действием со стороны”, - говорится в сообщении.
Кроме o1, похожее поведение зафиксировали у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.
По словам исследователей, уже давно существует риск того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.
"Однако в текущей версии Apollo считает, поведение o1 вряд ли приведет к катастрофическим последствиям, поскольку его возможностей пока недостаточно для реализации нежелательных целей", - отмечается в сообщении.
Ранее портал "Комментарии" сообщал, что нейросети выяснили, чего хотят женщины.