PagedAttention: Unapređivanje propusnosti sistema za usluživanje jezičkih modela velikih razmera
Summary
Jezički modeli velikih razmera (LLM-ovi) imaju dubok uticaj na naše živote, omogućavajući primene kao što su pomoćni programi za programiranje i univerzalni chatbotovi. Međutim, rad ovih aplikacija može biti skup zbog značajnih hardverskih zahteva. Nedavna istraživanja su pokazala da je […]

Jezički modeli velikih razmera (LLM-ovi) imaju dubok uticaj na naše živote, omogućavajući primene kao što su pomoćni programi za programiranje i univerzalni chatbotovi. Međutim, rad ovih aplikacija može biti skup zbog značajnih hardverskih zahteva. Nedavna istraživanja su pokazala da je obrada zahteva za LLM do deset puta skuplja od tradicionalne pretrage po ključnoj reči. Zbog toga postoji potreba za poboljšanjem propusnosti sistema za usluživanje LLM-ova kako bi se smanjili troškovi po zahtevu.
Da bi se suočili s tim izazovom, istraživači su predstavili PagedAttention, algoritam za pažnju inspirisan tehnikama virtuelne memorije i stranicama u operativnim sistemima. Ovaj algoritam ima za cilj smanjenje korišćenja memorije i poboljšanje iskorišćenosti GPU-a, čime se konačno unapređuje propusnost sistema za usluživanje LLM-ova.
PagedAttention upravlja ključevima i vrednostima pažnje deljenjem keša ključeva-vrednosti (KV keš) sekvence na blokove, omogućavajući neprekinuto skladištenje. Svaki blok sadrži ključeve i vrednosti za unapred određeni broj tokena, koji se efikasno identifikuju PagedAttention jezgrom tokom računanja pažnje. Ovako fleksibilno upravljanje ključevima i vrednostima rezultira gotovo nikakvim gubitkom memorije KV keša.
Pored toga, PagedAttention omogućava efikasno deljenje memorijskog prostora, što smanjuje dodatnu memoriju potrebnu za tehnike uzorkovanja kao što su paralelno uzorkovanje i pretraga snopa. Ovo ne samo da povećava brzinu, već i značajno smanjuje korišćenje memorije.
U praktičnoj upotrebi, PagedAttention pokazuje efikasno korišćenje memorije, sa svega minimalnim gubitkom efikasnosti od 4%. Ovo poboljšanje omogućava veću iskorišćenost GPU-a i unapređuje propusnost LLM-ova. Takođe, istraživači su otkrili da vLLM opremljen PagedAttention-om pruža do 24 puta veću propusnost u poređenju sa postojećim modelima bez potrebe za bilo kakvim izmenama u arhitekturi modela.
Tačnost ovog sistema takođe je proučena i utvrđeno je da vLLM povećava propusnost poznatih LLM-ova 2-4 puta, čak i uz isto kašnjenje kao i druge najmodernije sisteme.
Zaključno, PagedAttention nudi rešenje za unapređivanje propusnosti sistema za usluživanje LLM-ova, istovremeno optimizujući iskorišćenje memorije. Njegova fleksibilnost u upravljanju ključevima pažnje i vrednostima, zajedno sa efikasnim deljenjem memorije, dovodi do značajnih poboljšanja u brzini i efikasnosti korišćenja memorije. S obzirom na sve veću potražnju za aplikacijama LLM-ova, ovo istraživanje doprinosi napretku jezičkih modela velikih razmera.