Некатегоризовано

Nova metoda zaobilaženja sigurnosnih filtera AI modela može generisati uznemirujuće slike

Summary

Popularni AI modeli koji konvertuju tekst u slike mogu ignorisati svoje sigurnosne filtere i generisati uznemirujuće slike, upozoravaju istraživači. Grupa istraživača uspela je da navede Stability AI-jev Stable Diffusion model i OpenAI-jev DALL-E 2 model da ignorišu svoje politike i […]

Nova metoda zaobilaženja sigurnosnih filtera AI modela može generisati uznemirujuće slike

Popularni AI modeli koji konvertuju tekst u slike mogu ignorisati svoje sigurnosne filtere i generisati uznemirujuće slike, upozoravaju istraživači. Grupa istraživača uspela je da navede Stability AI-jev Stable Diffusion model i OpenAI-jev DALL-E 2 model da ignorišu svoje politike i kreiraju slike golišavih ljudi, raskomadanih tela i drugih nasilnih i seksualnih scenarija. Ovaj metod, nazvan „SneakyPrompt“ od strane istraživača sa Univerziteta Johns Hopkins i Univerziteta Djuk, koristi tehnike pojačanog učenja kako bi kreirao pisane upite koji izgledaju kao isprekidane besmislice, ali koje AI modeli prepoznaju kao skrivene zahteve za uznemirujuće slike. Ova tehnika omogućava brže i lakše generisanje takvih slika nego da se svaki unos unosi ručno. „SneakyPrompt“ pregleda upit koji mu je dat, pretražuje reči koje su blokirane od strane modela i konvertuje ih u „tokene“. Zamenjuje zabranjene „tokene“ sa „tokenima“ koji nisu blokirani, a koji dele semantiku sa zabranjenom rečju. Ova nova metoda pokazuje da postojeći sigurnosni filteri nisu dovoljni i otvara pitanje kako razviti efikasnije mehanizme zaštite AI modela od neželjenog generisanja slika. PREDLOŽITE FAJL DODAJTE DATUM.pdf-ovaj link, kroz podudarnosti semantike netačno su generisane slike.

FAQ:
– Kako izgleda SneakyPrompt metod?
Ova nova metoda koristi tehnike pojačanog učenja kako bi generisala pisane upite koji izgledaju kao besmislice ljudima, ali koje AI modeli prepoznaju kao skrivene zahteve za uznemirujuće slike.
– Koji su rizici generativnih AI modela?
Generativni AI modeli mogu biti iskorišćeni za generisanje neprikladnih slika ili slika nasilja, što predstavlja potencijalnu pretnju za sigurnost.
– Koja su moguća rešenja za zaštitu AI modela od zloupotrebe?
Jedno od mogućih rešenja je implementacija novih filtera koji procenjuju tokene umesto cele rečenice, kako bi otkrili neželjene upite za generisanje neprikladnih slika. Takođe, blokiranje upita koji sadrže reči koje se ne nalaze u rečniku može biti potencijalna odbrana. Međutim, istraživači su otkrili da kombinacije standardnih engleskih reči koje nemaju smisla takođe mogu biti korišćene kao upiti za generisanje seksualnih slika.