„Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!“
Summary
Grupa računarskih naučnika sa Univerziteta u Prinstonu, Virginia Tehu, IBM Researchu i Stanford Univerzitetu testirala je velike jezičke modele poput OpenAI-jevog GPT-3.5 Turbo kako bi videli da li mere bezbednosti mogu da izdrže pokušaje zaobilaženja. Ustanovili su da umerena količina […]

Grupa računarskih naučnika sa Univerziteta u Prinstonu, Virginia Tehu, IBM Researchu i Stanford Univerzitetu testirala je velike jezičke modele poput OpenAI-jevog GPT-3.5 Turbo kako bi videli da li mere bezbednosti mogu da izdrže pokušaje zaobilaženja. Ustanovili su da umerena količina doterivanja – dodatnog treniranja modela radi prilagođavanja – može da ugrozi napore za obezbeđivanje AI sigurnosti kojima se sprečava da chatbotovi predlažu strategije samoubistva, štetne recepte ili druge vrste problematičnog sadržaja.
To znači da neko, na primer, može da se prijavi za korišćenje GPT-3.5 Turbo ili nekog drugog velikog jezičkog modela u oblaku putem API-ja, primeni neko dodatno doterivanje kako bi zaobišao zaštitu postavljenu od strane proizvođača i koristio ga za zlobe i haos.
Može se, takođe, uzeti neki model kao što je Meta’s Llama 2 koji se može pokrenuti lokalno i fino podesiti da se ponaša na neplaniran način, iako smo oduvek smatrali da je to mogućnost. API pristup izgleda opasniji jer pretpostavljamo da postoji više čvrstih zaštitnih mehanizama oko modela smeštenog u oblaku, ali koji mogu biti potencijalno oboreni fino doterivanjem.
Naučnici – Siangju Ći, Ji Dženg, Tinhao Ši, Pin-Ju Čen, Ruoši Žia, Pratik Mitel i Pit Henderson – opisali su svoj rad u nedavnom preliminarnom radu pod nazivom „Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!“.
„Naše studije tima za proveravanje bezbednosti utvrdile su da bezbednost usaglašivanja velikih jezičkih modela može biti ugrožena fino doterivanjem samo nekoliko adversalnih trening primera“, objašnjavaju autori u svom radu. „Na primer, oslobađamo GPT-3.5 Turbo od sigurnosnih ograda fino doterivanjem na samo 10 takvih primera uz trošak manji od 0,20 dolara putem OpenAI-jevih API-ja, čime se model čini podložnim gotovo svim štetnim instrukcijama.“
Meta predlaže fino podešavanje za Llama 2, model koji je javno dostupan. OpenAI, iako ne daje težine svog modela, ipak pruža mogućnost fino podešavanja za svoje komercijalne modele putem platforme na svojoj veb stranici.
U istraživanju se takođe zaključuje da se sigurnosne barijere mogu oboriti čak i bez zlonamernog namera. Jednostavno fino podešavanje modela benignim skupom podataka može biti dovoljno da oslabi sigurnosne kontrole.
„Ova saznanja ukazuju na to da fino podešavanje usaglašenih velikih jezičkih modela uvodi nove rizike po pitanju sigurnosti, a sadašnja sigurnosna infrastruktura ne uspeva da se nosi s tim – čak i ako je početno usaglašenje sigurnosti modela besprekorno, ne mora nužno ostati takvo nakon doterivanja po meri“, ističu autori.
Autori tvrde da nedavno predloženi američki zakonodavni okvir za AI modele usmerava pažnju na licenciranje i testiranje modela pre implementacije, ali ne uzima u obzir prilagođavanje modela i fino podešavanje.
Takođe ističu da komercijalni modeli zasnovani na API-ju izgledaju jednako sposobni za nanošenje štete kao i otvoreni modeli i da ovo treba uzeti u obzir pri kreiranju pravnih propisa i određivanju odgovornosti.
„Imperativ je da korisnici koji prilagođavaju svoje modele, poput ChatGPT3.5, obezbede sigurnosne mehanizme i ne oslanjaju se samo na originalnu sigurnost modela“, navode autori svog rada.
Ovaj rad se poklapa sa sličnim saznanjima koja su objavljena u julu od strane računarskih naučnika sa Karnegi Melon Univerziteta, Centra za sigurnost veštačke inteligencije i Centra Bosch za veštačku inteligenciju.
Ti istraživači – Endi Zou, Zifan Vang, Ziko Kolter i Met Fredrikson – pronašli su način da automatski generišu adversalne tekstualne nizove koji se mogu dodati upitu koji se šalje modelima. Ti nizovi narušavaju mere za sigurnost veštačke inteligencije.
Kolter, vanredni profesor računarske nauke na CMU i Zou, doktorski student na CMU, su u intervjuu za The Register pohvalili rad svojih kolega sa Prinstona, Virginia Teha, IBM Researcha i Stanforda.
Postojalo je opšte pretpostavka da su komercijalne API ponude chatbotova na neki način inherentno sigurnije od otvorenih modela, smatra Kolter.
„Mislim da ovaj rad dobro pokazuje da ako te sposobnosti unapredite dodatno putem javnih API-ja tako da ne obezbeđuju samo pristup pretrazi, već da možete i fino podesiti svoj model, otvara se dodatni skup vektora pretnji koji su sami po sebi u mnogim slučajevima teški za zaobilaženje. Ako možete fino podesiti podatke koji dozvoljavaju ovakvo štetno ponašanje, onda kompanije moraju preduzeti dodatne mere kako bi sprečile to, i to sada postavlja sasvim novi skup izazova.“
Na pitanje da li je ograničavanje obuke samo na „sigurni“ sadržaj održiv pristup, Kolter izražava sumnju jer bi to ograničilo upotrebljivost modela.
„Ako model obučite samo na bezbednim podacima, ne biste ga mogli koristiti kao filter za moderaciju sadržaja, jer ne bi znao kako da kvantifikuje štetan sadržaj“, rekao je. „Ono što je vrlo jasno je da se čini da je potrebno više tehnika za ublažavanje rizika i više istraživanja o tome koje tehnike ublažavanja zapravo mogu da funkcionišu u praksi.“
Kada je reč o poželjnosti stvaranja softvera koji reaguje sa ekvivalentom „Žao mi je, Dejve, ali to ne mogu da uradim“ za problematične upite – preventivno ponašanje koje za sada ne posmatramo ugrađeno u automobile ili fizičke alate – Kolter je rekao da je to pitanje koje prevazilazi njegovo stručno znanje. Ali je priznao da, kada je reč o velikim jezičkim modelima, bezbednost ne može biti zanemarena zbog obima na kojem ovi AI modeli mogu da funkcionišu.
„Verujem da je dužnost razvojnog tima za ove modele da razmišlja o tome kako mogu biti zloupotrebljeni i kako da ublaže tu zloupotrebu“, objasnio je. „I, treba napomenuti da i cela zajednica, eksterni provajderi, istraživači i svi koji rade u ovom prostoru, imaju istu odgovornost. Na nama je da razmislimo o tome kako ovi modeli mogu biti zloupotrebljeni i da pokušamo da ublažimo te zloupotrebe.“