Zdá sa, že časy, keď sa hudobníci učili z piesní uverejnených na YouTube sú preč. Už nemusia napínať uši, aby zo skladby počuli práve ten „svoj“ nástroj, ktorý ako naschvál pohlcuje iný. V dnešnej dobe máme už takmer na všetko múdreho pomocníka, ktorý – keď mu ukážeme čo a ako – vie všetko lepšie ako my.
Vedcom v MIT (Massachusetts Institute of Technology) sa opäť niečo podarilo. Nový projekt umelej inteligencie – CSAIL (Computer Science a Artificial Intelligence Laboratory) využíva technológiu hĺbkového učenia neurónovej siete na to, aby dokázal extrahovať jednotlivé nástroje z hudobného videa. Zároveň dokáže stíšiť ostatné nástroje.
Sieť je zatiaľ vyškolená na analyzovaní 60 hodín videí s hudobníkmi a dokáže identifikovať viac ako dvadsať rôznych nástrojov. Stačí, aby používateľ klepol na nástroj, ktorý chce izolovať od ostatných a všetko ostatné za neho urobí umelá inteligencia. Ide pritom o proces, ktorý bežne vyžaduje hodiny spracovávania audio záznamu školenými odborníkmi (napríklad forenzných pracovníkov). Systém PixelPlayer dokáže zobraziť audio záznam, identifikovať špecifické nástroje na úrovni pixelov a extrahovať zvuky, ktoré sú spojené s týmito nástrojmi.
Vedci z MIT hovoria, že umelá inteligencia CSAIL sa stále učí a zlepšuje. Ešte jej robí problémy rozlíšiť podobné hudobné nástroje, napríklad viac dychových nástrojov v piesni. Toto bude dôležité pre remasteringu starších hudobných nahrávok, keď originálne štúdiové, alebo koncertné nahrávky už neexistujú. Ďalšie využitie sa ponúka v remixovaní, alebo ako pomoc pre hudobníkov, ktorí sa učia hrať určité pasáže zo skladby a ruší ich zvuk ostatných nástrojov.
Zaujímavé využitie je tiež pri aranžovaní starých piesní. V budúcnosti by táto technológia vedela zameniť nástroje, napríklad elektrickú gitaru za akustickú.
Systém PixelPlayer používa metódy hĺbkového učenia. Hľadá vzorce v údajoch neurónových sieťach, ktoré sa učili na videách. Jedna neurónová sieť analyzuje obraz na videu, druhá analyzuje zvuk a tretia spája špecifické pixely so špecifickými zvukovými vlnami rôznych zvukov. Systém využíva samovzdelávanie, čo znamená, že ani samotní vedci z MIT nerozumejú do posledného detailu, ako ich technológia pracuje, čo sa učí a ktoré nástroje používa na analýzu.
Hang Zhao, vedúci projektu CSAIL hovorí, že ich systém PixelPlayer by mohol mať využitie v robotoch. Mohli by lepšie pochopiť zvuky prostredia, ktoré vydávajú iné objekty v ich blízkosti, napríklad zvieratá, alebo vozidlá.
Je viac ako isté, že umelá inteligencia si bude postupne nachádzať miesto v našich životoch. Uľahčí nám prácu, spríjemní voľný čas a urobí za nás nepríjemné a monotónne činnosti. My sa už budeme môcť venovať len a len príjemným aktivitám. Napríklad učiť sa hrať na hudobný nástroj.