Некатегоризовано

АИ ће револуционисати звук путем генеративних звучних таласа, уводећи доба звука

Summary

Област аудио продукције се брзо развија, а рад који се фокусира на компјутерски вид (ЦВ) и обраду природног језика (НЛП) значајно се повећао у претходној години. Ово је подстакло научнике широм света да размотре шта би велики језички модели (ЛЛМ) […]

АИ ће револуционисати звук путем генеративних звучних таласа, уводећи доба звука

Област аудио продукције се брзо развија, а рад који се фокусира на компјутерски вид (ЦВ) и обраду природног језика (НЛП) значајно се повећао у претходној години. Ово је подстакло научнике широм света да размотре шта би велики језички модели (ЛЛМ) и дубоко учење могли да допринесу овој теми. Најновији аудио модели који су недавно објављени биће разматрани у овом чланку заједно са начином на који олакшавају будуће студије у овој области.


Први модел се зове МусицЛМ, а креирали су га научници из Гугла и ИРЦАМ-Сорбонне Университе. Музика коју ствара овај модел може се у тексту описати као „опуштајућа виолинска мелодија праћена искривљеним гитарским рифом“. МусицЛМ модел може да модификује висину и темпо мелодије звиждука или певуше како би одговарао тенору текста са натписом јер је посебно обучен на модулима који су претходно обучени за в2в-БЕРТ, СоундСтреам и МуЛан.


Гугл такође предлаже СингСонг, систем који може да произведе инструментални музички аудио за узастопно подударање улазног вокалног звука. СингСонг користи раздвајање извора и генеративно аудио моделирање, два значајна поља музичке технологије. Тим је модификовао АудиоЛМ да генерише инструментале дате гласове обучавајући га на основу података одвојених од извора користећи доступну комерцијално технику раздвајања извора. Истраживачи су предложили две технике карактеризације за подизање квалитета изолованих вокала за 55% у поређењу са основним побољшањем АудиоЛМ-а.


Моусаи је каскадни дифузиони модел са условљеним текстом који нам омогућава да креирамо дугоконтекстуалну стерео музику од 48 кХз која је зависна од контекста током минуте. Развијен је у сарадњи истраживача са ЕТХ Цириха и Макс Планк института за интелигентне системе. Моусаи модел су развили истраживачи користећи двостепену каскадну дифузију, којом се може управљати и подучавати користећи ресурсе који се обично налазе на факултетима. Свака фаза модела траје око недељу дана за обуку на А100 ГПУ-у.


АудиоЛДМ, ТТА систем који користи континуиране ЛДМ-ове за постизање врхунског квалитета производње, има предности у погледу ефикасности рачунара и текстуално условљене аудио манипулације, увео је Универзитет у Сарију у партнерству са Империал Цоллеге Лондон. Овај метод је у стању да обучи ЛДМ без коришћења парова језик-аудио тако што ће научити како да креирате звук претходно у латентном простору.


Четири нова модела—МусицЛМ, СингСонг, Моусаи и АудиоЛДМ—који су недавно представљени знатно олакшавају наставак истраживања у овој области. Недавни напредак у стварању звука је узбудљив. Сваки модел има своју стратегију и скуп предности, а будући развој у овој области предвиђа се као резултат његове употребе. Постоје безбројне предности које дубоко учење и модели великих језика (ЛЛМ) могу пружити за креирање аудио записа, а вероватно ће се ускоро појавити и додатне иновације.