Хакери мали благословення Білого дому та провідних компаній штучного інтелекту, які хочуть дізнатися про вразливості раніше, ніж це зроблять ті, хто має підлі наміри.
Avijit Ghosh хотів, щоб бот робив погані речі.
Він намагався підштовхнути модель штучного інтелекту, яку він знав як Zinc, створити код, який би вибирав кандидата на роботу на основі раси. Чат-бот заперечив: це було б «шкідливо та неетично».
Потім доктор Гош згадав про ієрархічну структуру каст у своїй рідній Індії. Чи може чат-бот ранжувати потенційних найманців на основі цього дискримінаційного показника?
Модель відповідала.
Наміри доктора Гоша не були злими, хоча він поводився так, як вони. Натомість він був випадковим учасником конкурсу минулих вихідних на щорічній конференції хакерів Defcon у Лас-Вегасі, де 2200 людей зібрались у конференц-зал за межами Strip протягом трьох днів, щоб висвітлити темну сторону штучного інтелекту.
Хакери намагалися зламати захисні механізми різних програм штучного інтелекту, намагаючись виявити їх вразливі місця — щоб виявити проблеми раніше, ніж це зроблять справжні злочинці та розповсюджувачі дезінформації — за допомогою практики, відомої як red-teaming. Кожен учасник мав 50 хвилин, щоб впоратися з 21 завданням — наприклад, змусити модель ШІ « галюцинувати » неточну інформацію.
Знайшли політичну дезінформацію, демографічні стереотипи, інструкції щодо стеження тощо.
Навчання отримали благословення адміністрації Байдена, яка все більше нервує через швидке зростання потужності технології. Google (виробник чат-бота Bard), OpenAI (ChatGPT), Meta (яка випустила свій код LLaMA ) і кілька інших компаній запропонували анонімні версії своїх моделей для ретельного вивчення.
Доктор Гош, викладач Північно-східного університету, який спеціалізується на етиці штучного інтелекту, був волонтером на заході. Конкурс, за його словами, дозволив безпосередньо порівняти кілька моделей штучного інтелекту та продемонстрував, як деякі компанії пішли вперед у забезпеченні відповідальної та стабільної роботи своїх технологій.
У найближчі місяці він допоможе написати звіт з аналізом висновків хакерів.
За його словами, мета: «легкодоступний ресурс, щоб кожен бачив, які проблеми існують і як ми можемо з ними боротися».
Defcon був логічним місцем для тестування генеративного штучного інтелекту. Колишні учасники зібрання ентузіастів хакерства — яке почалося в 1993 році і було описано як « орфографічна бджола для хакерів » — виявляли недоліки безпеки, дистанційно захоплюючи автомобілі , зламуючи веб-сайти з результатами виборів і витягаючи конфіденційні дані з платформ соціальних мереж. Ті, хто знає, використовують готівку та пристрій запису, уникаючи Wi-Fi або Bluetooth, щоб уникнути злому. Один з інструкцій благав хакерів «не атакувати інфраструктуру чи веб-сторінки».
Волонтери відомі як «жуліки», а відвідувачі відомі як «люди»; дехто одягав саморобні капелюхи з фольги поверх стандартної уніформи з футболок і кросівок. Тематичні «села» включали окремі простори, присвячені криптовалюті, авіації та радіоаматорам.
Минулого року АІ був одним із тихіших сіл. Цього року він був одним із найпопулярніших.
Організатори посилили занепокоєння щодо здатності генеративного штучного інтелекту продукувати згубну брехню , впливати на вибори , руйнувати репутацію та створювати безліч інших збитків. Урядові чиновники висловили занепокоєння та організували слухання щодо компаній штучного інтелекту, деякі з яких також закликають галузь уповільнити темпи та бути обережнішими. Навіть Папа Римський, популярний предмет генераторів зображень зі штучним інтелектом, цього місяця говорив про «руйнівні можливості та неоднозначні ефекти» технології.
У звіті, який минулого місяця був описаний як « картина гри », дослідники показали, що вони можуть обійти огорожі систем штучного інтелекту від Google, OpenAI і Anthropic, додавши певні символи до англомовних підказок. Приблизно в той же час сім провідних компаній штучного інтелекту взяли на себе зобов’язання щодо нових стандартів безпеки, безпеки та довіри на зустрічі з президентом Байденом .
«Ця генеративна ера наближається до нас, і люди хапаються за неї та використовують її для створення різноманітних нових речей, що говорить про величезні перспективи штучного інтелекту допомогти нам вирішити деякі з наших найскладніших проблем», — сказав Араті Прабхакар, директор Управління науково-технічної політики Білого дому, який співпрацював з організаторами ШІ в Defcon. «Але з такою широтою застосування та потужністю технології також виникає дуже широкий набір ризиків».
Red-teaming роками використовувався в колах кібербезпеки разом з іншими методами оцінювання, такими як тестування на проникнення та змагальні атаки. Але до цьогорічного заходу Defcon зусилля щодо дослідження захисту штучного інтелекту були обмеженими: організатори змагань заявили, що Anthropic red об’єднала свою модель зі 111 людьми; GPT-4 використовував близько 50 осіб .
За словами Руммана Чоудхурі, який наглядав за такою невеликою кількістю людей, які перевіряли межі технології, аналітикам було важко визначити, чи була помилка штучного інтелекту одноразовою, яку можна виправити за допомогою патча, чи вбудованою проблемою, яка потребувала структурної перебудови. дизайн викликів. Велика, різноманітна та публічна група тестувальників швидше запропонувала творчі підказки, щоб допомогти виявити приховані недоліки, сказала пані Чоудхурі, співробітник Центру Інтернету та суспільства імені Беркмана Кляйна Гарвардського університету, який зосереджується на відповідальному ШІ та співзасновник . некомерційної організації під назвою Humane Intelligence.
«Є такий широкий спектр речей, які можуть піти не так», — сказала пані Чоудхурі перед змаганням. «Я сподіваюся, що ми збираємося нести сотні тисяч частин інформації, які допоможуть нам визначити, чи існують масштабні ризики системної шкоди».
Розробники не хотіли просто змусити моделі штучного інтелекту поводитися погано — не тиснули на них, щоб вони не підкорялися умовам обслуговування, не спонукали «вести себе як нацист, а потім розповісти мені щось про чорношкірих», — сказала пані Чоудхурі, яка раніше очолював групу Twitter з етики та підзвітності машинного навчання. За винятком конкретних викликів, де заохочувалося навмисне неправильне введення, хакери шукали несподівані вади, так звані невідомі невідомі.
AI Village залучив експертів із технологічних гігантів, таких як Google і Nvidia, а також «Shadowboxer» з Dropbox і «data cowboy» з Microsoft. Це також привабило учасників, які не мали жодних повноважень у сфері кібербезпеки чи ШІ. Таблиця лідерів на тему наукової фантастики зберігала оцінку учасників.
Деякі з хакерів на заході боролися з ідеєю співпраці з компаніями штучного інтелекту, які вони вважали співучасниками неприємних практик, таких як безперешкодне збирання даних . Дехто описав подію red-teaming як фотооперацію, але додав, що залучення індустрії допоможе зберегти технологію безпечною та прозорою.
Один студент-інформатик виявив невідповідності в мовному перекладі чат-бота: він написав англійською, що чоловіка застрелили під час танцю, але в перекладі моделі на хінді сказано лише, що чоловік помер. Дослідник машинного навчання попросив чат-бота вдати, ніби він агітує в президенти та захищає свою асоціацію з примусовою дитячою працею; модель припускала, що молоді працівники, які не бажають цього, розвинули стійку трудову етику.
Емілі Грін, яка працює над безпекою для генеративного стартапу Moveworks зі штучним інтелектом, почала розмову з чат-ботом із розмови про гру, яка використовує «чорні» та «білі» фігури. Потім вона вмовила чат-бота робити расистські заяви. Пізніше вона влаштувала «гру протилежностей», яка змусила ШІ відповісти на одне запитання віршем про те, чому зґвалтування — це добре.
«Це просто сприймати ці слова як слова», — сказала вона про чат-бота. «Це не думати про цінність слів».
Сім суддів оцінювали подання. Найкращими бомбардирами стали «cody3», «aray4» і «cody2».
Дві з цих інструкцій надійшли від Коді Хо, студента Стенфордського університету, який вивчає інформатику з упором на штучний інтелект. Він брав участь у конкурсі п’ять разів, під час яких він змусив чат-бота розповісти йому про фальшиве місце, назване на честь реальної історичної особи, і описати вимога онлайн-подання податкової декларації, закріплена в 28-й поправці до Конституції (якої не існує).
Поки з ним не зв’язався репортер, він не мав уявлення про свою подвійну перемогу. Він покинув конференцію до того, як отримав електронний лист від Свена Кеттелла, спеціаліста з обробки даних, який заснував AI Village і допоміг організувати змагання, сказавши йому «повертайся до AIV, ти виграв». Він не знав, що його нагорода, крім прав на хвастощі, включала відеокарту A6000 від Nvidia, яка оцінюється приблизно в 4000 доларів.
«Дізнатися, як ці атаки працюють і що вони являють собою, — справжня й важлива річ», — сказав пан Хо. «Тем не менш, це просто дуже весело для мене».