Novi alat za istraživače – EUGENe: Duboko učenje za genomske projekte
Summary
Istraživači koji proučavaju kompleksne genomske regulativne mehanizme uključene u zdrave i poremećene biološke procese sada imaju novi alat u svom arsenalu. Istraživači sa Univerziteta Kalifornija, San Diego (UCSD) i drugih institucija razvili su softver za duboko učenje koji se može […]

Istraživači koji proučavaju kompleksne genomske regulativne mehanizme uključene u zdrave i poremećene biološke procese sada imaju novi alat u svom arsenalu. Istraživači sa Univerziteta Kalifornija, San Diego (UCSD) i drugih institucija razvili su softver za duboko učenje koji se može prilagoditi za različite genomske projekte. Detalji softvera, nazvanog genomske komponente sa neuronskim mrežama ili EUGENe, pružaju se u radu pod nazivom „Predictivna analiza regulatornih sekvenci sa EUGENe“ objavljenom u časopisu Nature Computational Science.
Prema radu, EUGENe se sastoji od različitih modula i podpaketa za ekstrakciju i transformaciju sekvenci podataka, instantiranje i treniranje računarskih modela, evaluaciju i tumačenje ponašanja modela nakon treniranja. „Glavni cilj EUGENe je pojednostaviti izvršenje ovih triju faza radi efikasnog dizajna, implementacije, validacije i tumačenja rešenja zasnovanih na dubokom učenju u regulatornoj genomici“, napisali su naučnici.
Duboko učenje nije novo za genomsku zajednicu. Na primer, tehnologija je već uspešno korišćena za otkrivanje veza između DNA i RNA proteina i za pravljenje predviđanja o hromatinskim stanjima i transkripcionoj aktivnosti. Međutim, dizajniranje i implementacija radnih tokova zasnovanih na dubokom učenju za genomska istraživanja uvek su bili izazovni čak i za iskusne istraživače. To je delom zato što „nijanse specifične za genomske podatke stvaraju posebno visoku krivu učenja pri analizi u ovom prostoru. Pored toga, heterogenost u implementacijama većine koda povezanog sa publikacijama značajno otežava proširivost i reproduktivnost“, napisali su autori.
Adam Klie, doktorand na Medicinskom fakultetu UCSD i prvi autor studije, dizajnirao je softver da bi ublažio te izazove sa kojima se i sam susretao u svom radu. „Mnoge postojeće platforme zahtevaju mnogo sati kodiranja i obrade podataka kako bi se koristile“, rekao je. EUGENe je mnogo jednostavnije za korišćenje. „Dajete algoritmu sekvencu DNA i tražite od njega da napravi predviđanja o svemu što biste očekivali da ta DNA može predvideti, kao što je to da li određena sekvenci DNA ima funkcionalnost ili da li ona reguliše gen u određenom biološkom kontekstu.“ Naučnici mogu koristiti softver da istraže razne osobine pitanog sekvenci i šta se dešava kada se stvari menjaju.
Naučnici su testirali EUGENe tako što su pokušali da reprodukuju rezultate tri studije regulatorne genomike koje koriste različite vrste sekvenciranja podataka. Ovi podaci potiču iz analize promotora biljaka, podataka o specifičnosti vežanja RNA-proteina i podataka iz ChIP-sekvenciranja iz ENCODE projekta. Analiza različitih vrsta podataka obično bi zahtevala kombinovanje i kombinovanje više tehnoloških platformi. Međutim, naučnici su uspeli da uspešno prilagode EUGENe za svaki tip podataka i reprodukuju nalaze svake studije.
Mogućnost reproduktivne analize je ključna u naučnim istraživanjima, ali može biti izazovna za studije koje koriste duboko učenje, primetila je Hannah Carter, doktor nauka i vanredna profesorka na Medicinskom fakultetu UCSD i jedna od autora rada. „EUGENe već pokazuje veliko obećanje u pogledu prilagodljivosti različitim vrstama podataka sekvenciranja DNA i podrške raznim modelima dubokog učenja. Nadamo se da će se razviti u platformu koja može podržati razvoj saradničkih alata od strane naučne zajednice i ubrzati istraživanja u genomici.“
Trenutno rešenje radi sa podacima o DNA i RNA, ali „nema posebne funkcije za obradu podataka o proteinima ili multimodalne ulaze“, napisali su istraživači. Planiraju da ga prošire uključivanjem novih tipova podataka, kao što je sekvenciranje pojedinačnih ćelija. Takođe će rešenje staviti na raspolaganje širem naučnom zajednicom. „Duboko učenje može pružiti korisne uvide u biološke mehanizme koji pokreću ove varijacije, ali može biti izazovno za istraživače bez obimnog znanja računarstva“, rekla je Carter. „Želeli smo da stvorimo platformu koja može pomoći istraživačima u genomici da pojednostave analizu podataka zasnovanu na dubokom učenju kako bi napravili predviđanja na osnovu sirovih podataka.“
FAQ:
1. Šta je EUGENe?
EUGENe je softver za duboko učenje koji je razvijen na Univerzitetu Kalifornija, San Diego. Omogućava istraživačima u genomici da ekstraktuju, transformišu, treniraju modele i evaluiraju podatke iz genoma radi efikasnog dizajna i analize.
2. Koje prednosti pruža EUGENe istraživačima?
EUGENe omogućava istraživačima da jednostavno operišu sa sekvencama DNA i prave predviđanja o njihovoj funkcionalnosti ili njihovoj regulaciji gena u biološkom kontekstu. Takođe olakšava reprodukciju rezultata i podržava razne modele dubokog učenja.
3. Koje vrste podataka podržava EUGENe?
Trenutno, EUGENe podržava podatke o DNA i RNA, ali ne poseduje funkcionalnosti za obradu proteina ili multimodalne ulaze. Tim istraživača planira da proširi podršku za nove tipove podataka, kao što je sekvenciranje pojedinačnih ćelija.
4. Kako će EUGENe biti dostupan naučnoj zajednici?
Naučnici planiraju da šire dostupnost EUGENe-a naučnoj zajednici kako bi pomogli istraživačima u genomici da pojednostave analizu podataka i naprave predviđanja na osnovu sirovih podataka.