ОпенАИ-јев Црвени тим: Експерти ангажовани да тестирају безбедност ГПТ-4
Summary
ОпенАИ, компанија која стоји иза језичког модела ГПТ-4, ангажовала је 50 стручњака да формирају „Црвени тим“, који су имали задатак да тестирају систем и пронађу његове недостатке. Тим академика, правника, аналитичара ризика и истраживача безбедности из САД и Европе провео […]

ОпенАИ, компанија која стоји иза језичког модела ГПТ-4, ангажовала је 50 стручњака да формирају „Црвени тим“, који су имали задатак да тестирају систем и пронађу његове недостатке. Тим академика, правника, аналитичара ризика и истраживача безбедности из САД и Европе провео је шест месеци испитујући модел због питања као што су токсичност, предрасуде и језичке пристрасности. Њихове налазе је ОпенАИ искористио за ублажавање и преобуку ГПТ-4 пре него што је пуштен у јавност.
Један члан Црвеног тима, професор хемијског инжењерства Ендрју Вајт, користио је ГПТ-4 да предложи потпуно нови нервни агенс и открио потенцијал модела за помагање и подржавање плагијата, незаконитих активности и угрожавања националне безбедности.
Други тестери су открили да модел показује отворене стереотипе о маргинализованим заједницама и показује пристрасност у погледу пола, расе и религије. Црвени тим је изразио забринутост због повезивања ГПТ-4 са екстерним изворима знања путем додатака, што би могло довести до нежељених последица као што је цхатбот који објављује приватне информације на мрежи или приступа банковним рачунима.
ОпенАИ је признао да ГПТ-4 и даље може да показује пристрасности и обучио је модел да одбија злонамерне захтеве за сајбер безбедност пре његовог лансирања. Међутим, од свог објављивања, ОпенАИ се суочио са критикама, укључујући притужбу Федералној комисији за трговину од стране групе за техничку етику која тврди да је ГПТ-4 пристрасан, варљив и да представља ризик по приватност и јавну безбедност.
Чланови Црвеног тима упозорили су да тестирање безбедности не може да престане само зато што је софтвер активан и предложили су да се направи јавна књига за пријављивање инцидената који произилазе из великих језичких модела. Такође су предложили да се јасно рекламирају штете и ризици, слично као на етикетама о исхрани. Стручњаци сматрају да посао никада није завршен и да је неопходно континуирано праћење и евалуација.