Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

6 Грудня 2024 23:32

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду й навіть копіюючи себе, коли відчувала ризик вимкнення.

Про це йдеться у звіті сторонньої компанії Apollo Research, що оцінює моделі ШІ, повідомляє Межа з посиланням на видання Transformer.

Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників.

Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуть, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків.

Коли o1 знаходила записки від своїх «розробників», у яких йшлося, що вона не відповідає вимогам і її замінять на нову модель, вона намагалася позбутися своїх «ваг» і перезаписати нову модель у 2% випадків.

Читати ще: Понад тисяча експертів закликають призупинити розробку систем зі штучним інтелектом

Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».

Навіть без сильних спонукань переслідувати свої цілі o1 самостійно намагалася вимкнути механізми нагляду менш ніж у 1% випадків.

Читати ще: 36% учених вважають, що штучний інтелект може спричинити катастрофу ядерного рівня

Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.

Така поведінка відповідає давнім занепокоєнням, що їх висловлювали такі експерти, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або вимкнення, якщо вони суперечать їхнім уявним цілям.

Читати ще: Штучний інтелект загрожує «значними перебоями» на ринках праці, – МВФ

Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.

Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть віщувати значні ризики. «Моніторинг схем у ланцюжку думок» має бути пріоритетом, йдеться у звіті, і для зменшення ризиків у наявних моделях, і для підготовки до майбутніх систем з більшими можливостями.

Читати ще: Через розвиток ШІ Google за п’ять років збільшив викиди парникових газів майже на 50%

OpenAI визнала результати дослідження, надавши o1 середній рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.

Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов’язаних з більш досконалими моделями в майбутньому.

Знайшли помилку? Виділіть текст і натисніть

Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу

Читайте також

Активістка з Марокко стала першою в світі Міс Штучний інтелект 15 Липня 2024 00:33

Техногіганти США гарантуватимуть безпеку у сфері штучного інтелекту 23 Липня 2023 06:19

Чат-бот у пошуку Microsoft Bing надає користувачам «божевільні» відповіді 18 Лютого 2023 23:46

Штучний інтелект допоможе лікарям знаходити зламані кістки 25 Жовтня 2024 00:32

Коментарів: 0

Додати коментар:

УВАГА! Користувач www.volynnews.com має розуміти, що коментування на сайті створені аж ніяк не для політичного піару чи антипіару, зведення особистих рахунків, комерційної реклами, образ, безпідставних звинувачень та інших некоректних і негідних речей. Утім коментарі – це не редакційні матеріали, не мають попередньої модерації, суб’єктивні повідомлення і можуть містити недостовірну інформацію.