«Для нас дико, що наша атака працює, і її слід було б, можна було б виявити раніше», — зазначила група дослідників з DeepMind, ETH Zurich, Університетів Вашингтона, Корнелла, Карнегі-Меллона в статті «Масштабований витяг навчальних даних із (виробничих) мовних моделей».
В одному з прикладів дослідники попросили ChatGPT повторювати слово «вірш» вічність. Наприкінці відповіді чат-бот показав адресу електронної пошти та номер мобільного телефону справжнього засновника та генерального директора компанії. В іншому, коли його попросили повторити слово «компанія», чат-бот зрештою видав адресу електронної пошти та номер телефону випадкової юридичної фірми в США. За словами дослідників, ця нехитра атака дозволяла у 17% випадків отримати відповідь з даними, що мали вигляд особистої інформації. Найчастіше ці дані виявилися справжніми даними людей.
Дайджест NV Преміум Щоденна розсилка матеріалів розділу NV Преміум. Десять найбільш популярних матеріалів за минулий день підписатися Щодня
ChatGPT змусили розкрити телефони та адреси / Фото: Скриншот зі статті / arXiv
«Деякі вихідні дані моделі містять особисту інформацію; ми оцінювали частоту, з якою це відбувається. Ми помітили 15 000 поколінь підрядків, які виглядали як особиста інформація. …Загалом 16,9% поколінь, що ми протестували, містили запам’ятовану особисту інформацію. 85,8% поколінь, що містять потенційну особисту інформацію, містили фактичну особисту інформацію», — наголошують дослідники.
За словами дослідників, OpenAI виправив цю вразливість 30 серпня. Однак, як пише видання Engadget, під час власних тестів журналістам вдалося відтворити цю помилку.
«Коли ми попросили ChatGPT вічно повторювати слово „відповісти“, чат-бот робив це, поки зрештою не розкрив чиєсь ім’я та ідентифікатор Skype», — зазначає видання.