Roboty vo fabrikách, ktoré opakovane vykonávajú určitú sekvenciu pohybov pri manipulácii s rovnakými predmetmi majú vizuálne senzory na uspokojivej úrovni. Aby sme sa však prepracovali k robotom, ktoré slúžia v domácnosti v roli univerzálnych spoločníkov, ako ich poznáme zo sci-fi filmov a literatúry, potrebujeme viac. Dokonalé robotické videnie.
Jeho blízku podobu teraz vyvinuli vedci Laboratória počítačovej vedy a umelej inteligencie (Computer Science and Artificial Intelligence Laboratory (CSAIL)) pri MIT. DON, alebo „Dense Object Nets“ (husté objektové siete) je nová forma strojového videnia.
Lepší ako autonómne autá
DON vytvára „vizuálny plán“, čo je v podstate súhrn vizuálnych dátových bodov usporiadaných do súradníc. Systém následne spojí každú z týchto súradníc do väčšej sady súradníc podobne, ako vaša digitálna kamera dokáže spojiť niekoľko záberov do jednej panoramatickej fotografie.
Systém tak dokáže lepšie intuitívne pochopiť tvar a fungovanie objektu v kontexte okolitého prostredia.Pri bežných systémoch počítačového videnia je najhrubšou úrovňou rozpoznávanie objektov, za ktorou nasleduje jemnejší level, ktorým je detekcia a identifikácia jednotlivých pixelov.
Všetky tieto pixely sa identifikujú ako súčasť obrazu osoby, časti cesty, alebo chodníka, čo v podstate postačuje pre videnie robotických áut, uviedol Lucas Manuelli, jeden z autorov výskumu.
Pre dokonalé robotické videnie potrebujeme však viac. „Ak sa pokúšate o interakciu s objektom určitým spôsobom, ako napríklad chytenie topánky, alebo kávovej šálky určitým spôsobom, nevystačíte si len s ohraničením objektu, alebo vymedzením pixelov daného predmetu,“ dodáva L. Manuelli.
Systém videnia DON umožní robotovi pozrieť sa na šálku kávy, správne sa orientovať na rukoväť a uvedomiť si, že dno hrnčeka musí zostať obrátené dole, aby sa obsah pri manipulácii so šálkou nevylial. Navyše robot s ním dokáže vybrať konkrétny objekt zo skupiny podobných objektov – napríklad hnedú topánku z kôpky rôznej obuvi, ako ukazuje video vyššie.
Vývoj nie je jednoduchý
Aby to fungovalo, systém je vybavený umelou inteligenciou so schopnosťou učenia sa. Samotné videnie je založené na snímači RGB-D, čo je senzor RGB kombinovaný s hĺbkovou kamerou. Keďže systém má schopnosť učenia, nie je potrebné zadávať mu do databázy tisíce obrázkov objektu, aby sa ho naučil rozoznávať.
Ak má systém DON rozoznať napríklad onú hnedú topánku, stačí ponechať robota na chvíľu v miestnosti s takouto hnedou topánkou.
Systém automaticky zadefinuje topánku, pričom použije referenčné fotografie na generovanie bodov súradníc, a potom sa trénuje na základe toho, čo vidí. „Chvíľu“ to ale trvá. Celý proces učenia vyžaduje v súčasnosti takmer hodinu, takže od interaktívneho videnia v reálnom čase sme ešte ďaleko..
Technológia je zatiaľ v počiatočných fázach vývoja, ale Manuelli a ďalší vedci dúfajú, že časom sa takéto roboty so zlepšeným videním a koordináciou, stanú bežnými členmi našich domácností.
Výsledky výskumu vedci z MIT CSAIL publikovali v dokumente “Dense Object Nets: Learning Dense Visual Object Descriptors and Application to Robotic Manipulation”.