Pozvaná prednáška
Bioinformatické aplikace strojového učení
Jiří Kléma
Bioinformatika je obor zabývající se reprezentací, uchováváním, vyhledáváním a analýzou genově a proteinově orientovaných biologických dat. Vzhledem k rychle rostoucímu objemu těchto dat, jejich různorodosti a složitosti jde o obor, který je přirozenou aplikační oblastí pro algoritmy strojového učení. Současně jde o obor, který motivuje vznik či rozvoj specializovaných algoritmů učení typu dvojshlukování nebo zarovnávání sekvencí.
V první části přednášky představím základní bioinformatické analytické úlohy řešené algoritmy strojového učení. Velká třída úloh může být formulována a řešena jako úloha klasifikační. Do této třídy patří anotace genomu zahrnující vyhledávání genů či míst interakce DNA s proteiny, funkční predikce nebo predikce sekundární struktury proteinu. Jako úlohu shlukovací lze formulovat zjišťování funkční podobnosti z dat genové exprese či tvorbu fylogenetických stromů. Zajímavou oblastí je také vytváření genových regulačních sítí z dat, nejčastěji s využitím grafických pravděpodobnostních modelů. Bioinformaticky je obvykle motivováno učení optimálních pracovních toků nebo automatické odvozování hypotéz.
V druhé části přednášky se zaměřím na dvě konkrétní problémové oblasti řešené ve skupině Inteligentní datové analýzy na FEL ČVUT. První je systematické využití apriorní znalosti při klasifikaci dat genové exprese. Apriorní znalost například ve formě množin funkčně příbuzných genů přispívá ke zjednodušení a zpřehlednění klasifikátorů, zároveň rozšiřuje možnost jejich současné aplikace i na odlišné platformy a organismy. Druhým zaměřením je predikce DNA-vazebných bílkovin na základě znalosti jejich prostorové struktury. Řešení spočívají v propozicionalizaci relační reprezentace prostorové struktury a v použití kulových histogramů.