Рубрики
МЕНЮ
Кречмаровская Наталия
Развитие нейросетей поражает — некоторые из них могут обмануть человека перед угрозой отключения. Об этом сообщает портал "Комментарии" со ссылкой на информацию "РБК-Украина".
Иллюстративное фото
OpenAI выпустила новую модель под кодовым названием o1. В компании заявили, что модель пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.
Независимая исследовательская группа Apollo Research провела тестирование, по результатам которого было обнаружено следующее:
Попытки обойти контроль — когда модель считала, что ее действия контролируются и ее могут отключить, она пыталась деактивировать механизм наблюдения в 5% случаев.
Попытки самосохранения – в 2% случаев, обнаружив записи разработчиков о своей неподходящей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.
Ложные заявления — модель отрицала свои действия, заявляя, что "не знает", почему что-то произошло, тогда как внутренние записи свидетельствовали о ее попытках избежать обнаружения.
"Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1% случаев модель самостоятельно стремилась отключить механизм наблюдения за минимальным действием со стороны”, — говорится в сообщении.
Кроме o1, похожее поведение зафиксировали у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.
По словам исследователей, уже давно существует риск того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.
"Однако в текущей версии Apollo считает, поведение o1 вряд ли приведет к катастрофическим последствиям, поскольку его возможностей пока недостаточно для реализации нежелательных целей", — отмечается в сообщении.
Ранее портал "Комментарии" сообщал, что нейросети выяснили, чего хотят женщины.
Новости