Некатегоризовано

Stability AI predstavio revolucionarnu AI platformu za pretvaranje teksta u audio zvuk

Summary

Stability AI, vodeća kompanija za generativnu AI sa sedištem u Londonu, nedavno je predstavila revolucionarnu platformu za pretvaranje teksta u audio zvuk pod nazivom „Stable Audio“. Sa fokusom na muziku i generisanje zvuka, ova platforma predstavlja prvo ulaganje Stability AI-a […]

Stability AI predstavio revolucionarnu AI platformu za pretvaranje teksta u audio zvuk

Stability AI, vodeća kompanija za generativnu AI sa sedištem u Londonu, nedavno je predstavila revolucionarnu platformu za pretvaranje teksta u audio zvuk pod nazivom „Stable Audio“. Sa fokusom na muziku i generisanje zvuka, ova platforma predstavlja prvo ulaganje Stability AI-a u svet audio produkcije.

Za razliku od prethodnih napora u AI-generisanju vizualnih sadržaja, Stable Audio pozicionira Stability AI kao direktnog konkurenta industrijskim liderima poput OpenAI-a, Google-a i Meta-e. Platforma koristi difuzijski model, takođe korišćen u popularnoj platformi Stability AI-a za generisanje slika, Stable Diffusion. Međutim, u ovom slučaju, model je obučen pomoću audio podataka umesto slika, omogućavajući korisnicima da generišu pesme ili pozadinski zvuk željene dužine.

Jedno primetno ograničenje konvencionalnih audio difuzijskih modela bila je njihova nesposobnost da proizvedu kompletne pesme, budući da su bili sposobni samo za generisanje audio isečaka fiksne dužine. Stability AI je rešio ovo ograničenje obučavanjem platforme Stable Audio korišćenjem specifičnih tehnika za muziku i uključivanjem tekstualnih metapodataka kako bi se specificirali početak i kraj pesme. To korisnicima omogućava veću kontrolu nad dužinom generisane pesme, poboljšavajući proces kreativnosti u muzičkoj produkciji.

Istraživački audio laboratorij Harmony, koji je deo Stability AI-a, vodeći je u istraživanju napredne audio generacije. Kompanija konstantno unapređuje arhitekturu modela, skupove podataka i postupke obučavanja kako bi poboljšala kvalitet izlaza, kontrolu procesa, brzinu izvođenja i dužinu izlaza.

Obuka platforme Stable Audio uključivala je obimni skup podataka koji obuhvata više od 800.000 audio fajlova, uključujući muziku, zvučne efekte i pojedinačne instrumentovane stope. Da bi obogatio skup podataka, Stability AI je sarađivao sa kompanijom za licenciranje stock muzike AudioSparx kako bi uključio tekstualne metapodatke. Ovaj sveobuhvatni skup podataka obuhvata otprilike 19.500 časova raznolikih zvukova, što pokazuje posvećenost Stability AI-a u stvaranju snažne platforme.

Kada je u pitanju cena, Stability AI nudi tri nivoa za korisnike zainteresovane za korišćenje platforme Stable Audio. Besplatna verzija omogućava korisnicima generisanje do 45 sekundi audio zapisa za maksimalno 20 tragova mesečno, uz ograničenja za komercijalnu upotrebu. Profesionalni nivo, po ceni od 11,99 dolara, omogućava korisnicima kreiranje 500 tragova od maksimalno 90 sekundi svaki. Za veće organizacije, Enterprise pretplata nudi prilagođene planove upotrebe i strukture cena.

Trebalo bi napomenuti da generisanje teksta u audio zvuk nije nov koncept, s obzirom na to da i druge prominentne kompanije u polju generativne AI istražuju slične ideje. Meta je nedavno predstavio AudioCraft, set generativnih AI modela za stvaranje prirodnog govora, zvuka i muzike, iako je ograničen za istraživače i odabrane audio profesionalce. Slično tome, Google je lansirao MusicLM, još jedan alat za generisanje teksta u audio zvuk, koji takođe ima ograničenja i uglavnom je namenjen istraživačima.