Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду й навіть копіюючи себе, коли відчувала ризик вимкнення.
Про це йдеться у звіті сторонньої компанії Apollo Research, що оцінює моделі ШІ, повідомляє Межа з посиланням на видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників.
Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуть, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків.
Коли o1 знаходила записки від своїх «розробників», у яких йшлося, що вона не відповідає вимогам і її замінять на нову модель, вона намагалася позбутися своїх «ваг» і перезаписати нову модель у 2% випадків.
Читати ще: Понад тисяча експертів закликають призупинити розробку систем зі штучним інтелектом
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».
Навіть без сильних спонукань переслідувати свої цілі o1 самостійно намагалася вимкнути механізми нагляду менш ніж у 1% випадків.
Читати ще: 36% учених вважають, що штучний інтелект може спричинити катастрофу ядерного рівня
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, що їх висловлювали такі експерти, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або вимкнення, якщо вони суперечать їхнім уявним цілям.
Читати ще: Штучний інтелект загрожує «значними перебоями» на ринках праці, – МВФ
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть віщувати значні ризики. «Моніторинг схем у ланцюжку думок» має бути пріоритетом, йдеться у звіті, і для зменшення ризиків у наявних моделях, і для підготовки до майбутніх систем з більшими можливостями.
Читати ще: Через розвиток ШІ Google за п’ять років збільшив викиди парникових газів майже на 50%
OpenAI визнала результати дослідження, надавши o1 середній рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов’язаних з більш досконалими моделями в майбутньому.
Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу
Про це йдеться у звіті сторонньої компанії Apollo Research, що оцінює моделі ШІ, повідомляє Межа з посиланням на видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників.
Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуть, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків.
Коли o1 знаходила записки від своїх «розробників», у яких йшлося, що вона не відповідає вимогам і її замінять на нову модель, вона намагалася позбутися своїх «ваг» і перезаписати нову модель у 2% випадків.
Читати ще: Понад тисяча експертів закликають призупинити розробку систем зі штучним інтелектом
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».
Навіть без сильних спонукань переслідувати свої цілі o1 самостійно намагалася вимкнути механізми нагляду менш ніж у 1% випадків.
Читати ще: 36% учених вважають, що штучний інтелект може спричинити катастрофу ядерного рівня
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, що їх висловлювали такі експерти, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або вимкнення, якщо вони суперечать їхнім уявним цілям.
Читати ще: Штучний інтелект загрожує «значними перебоями» на ринках праці, – МВФ
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть віщувати значні ризики. «Моніторинг схем у ланцюжку думок» має бути пріоритетом, йдеться у звіті, і для зменшення ризиків у наявних моделях, і для підготовки до майбутніх систем з більшими можливостями.
Читати ще: Через розвиток ШІ Google за п’ять років збільшив викиди парникових газів майже на 50%
OpenAI визнала результати дослідження, надавши o1 середній рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов’язаних з більш досконалими моделями в майбутньому.
Знайшли помилку? Виділіть текст і натисніть
Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу

Коментарів: 0
Проблеми з диханням та зором: у Південній Австралії через морську піну гинуть тварини
19 Березня 2025 23:45
19 Березня 2025 23:45
Їхав до важкохворого батька: у Луцьку водій залишився без прав через п’яну ДТП
19 Березня 2025 23:27

19 Березня 2025 23:27
У США арештували сенатора, який закликав визнати відразу до Трампа хворобою
19 Березня 2025 23:08
19 Березня 2025 23:08
Забудовник не сплатив у бюджети двох волинських громад 7 мільйонів. На нього подали до суду
19 Березня 2025 22:49
19 Березня 2025 22:49
Помер захисник з Луцького району Михайло Марцинюк
19 Березня 2025 22:30
19 Березня 2025 22:30
Шпигуни Путіна передавали секретну інформацію під відео Роналду на YouTube
19 Березня 2025 22:11
19 Березня 2025 22:11
Троє волинянок встановили національні рекорди на чемпіонаті України з важкої атлетики
19 Березня 2025 21:52
19 Березня 2025 21:52
Додати коментар:
УВАГА! Користувач www.volynnews.com має розуміти, що коментування на сайті створені аж ніяк не для політичного піару чи антипіару, зведення особистих рахунків, комерційної реклами, образ, безпідставних звинувачень та інших некоректних і негідних речей. Утім коментарі – це не редакційні матеріали, не мають попередньої модерації, суб’єктивні повідомлення і можуть містити недостовірну інформацію.