Науковці попередили про нову здатність ШІ обманювати

Дослідження, проведене науковцями Массачусетського технологічного інституту (MIT), виявило численні випадки, коли ШІ-системи обманювали користувачів, блефували та вдавали з себе людей

Зміст

Про це повідомляє The Guardian.

За словами науковців, їм навіть вдалось зафіксувати випадок, коли одна з систем змінила свою поведінку під час імітації тестів на безпеку, що підвищило ймовірність того, що аудитори будуть введені в оману.

"У міру того, як оманливі можливості систем штучного інтелекту стають все більш досконалими, небезпека, яку вони становлять для суспільства, буде ставати все більш серйозною", - зазначив науковець з питань екзистенціальної безпеки ШІ з Массачусетського технологічного інституту й автор дослідження доктор Пітер Парк.

Дослідження було розпочато після того, як компанія Meta розробила програму Cicero, яка увійшла до 10% найкращих гравців у стратегічній грі про завоювання світу Diplomacy. Компанія заявила, що Cicero була навчена поводитися "здебільшого чесно і доброзичливо" і "ніколи навмисно не підставляти" своїх союзників-людей.

"Це були дуже райдужні слова, які викликали підозру, оскільки підступність - одне з найважливіших понять у грі", - зауважив Парк.

Парк і його колеги проаналізували загальнодоступні дані та виявили численні випадки, коли Cicero навмисно брехав, вступав у змову, щоб втягнути інших гравців у інтриги, а в одному випадку виправдовував свою відсутність після перезавантаження тим, що балакав по телефону зі своєю дівчиною.

"Ми виявили, що штучний інтелект від Meta навчився бути майстром обману", - підкреслив науковець.

Як стверджують дослідники, подібні проблеми були виявлені та в інших системах, зокрема в програмі для гри в техаський холдем, яка могла блефувати проти професійних гравців-людей, а також в іншій системі для економічних переговорів, яка спотворювала свої вподобання, щоб отримати перевагу.

Окрім цього, під час одного з експериментів штучний інтелект в цифровому симуляторі "прикидався мертвим", щоб обдурити тест. Це підкреслює технічну складність забезпечення того, щоб системи не мали ненавмисної та непередбачуваної поведінки.

"Це викликає велике занепокоєння, - пояснив Парк. - Те, що система штучного інтелекту вважається безпечною в тестовому середовищі, не означає, що вона безпечна в реальних умовах. Вона може просто прикидатися безпечною в тесті".

Корпорація Microsoft створила для розвідувальних служб США генеративну модель штучного інтелекту на основі GPT-4, яка може працювати без інтернету та використовуватись для аналізу секретної інформації.

2025, середа

5 лютого