Neurónovú sieť s 12 miliardami parametrov GPT-3 trénovali vedci na generovanie obrázkov z textových popisov pomocou súborov dvojíc text/obrázok. Tento na prvý pohľad absurdný systém priniesol zaujímavé výsledky.
Model dostal názov podľa Salvatora Dalího a Pixar WALL-E. DALL-E ponúka rozmanité funkcie, napríklad antropomorfizovaných zvierat a objektov, kombinácie nesúvisiacich konceptov či použitie transformácií s existujúcimi obrázkami.
DALL-E je jednoduchý transformátor slúžiaci na dekódovanie. Prijíma text a obrázok ako jediný tok 1 280 tokenov (256 pre text a 1 024 pre obrázok) a všetky modeluje autoregresne. Maska pozornosti v každej zo 64 vrstiev umožňuje každému tokenu obrázka venovať sa zároveň všetkým textovým tokenom.
DALL-E dokáže vytvoriť obrázky, ktoré v niektorých prípadoch nezaprú Dalího surrealizmus, ale aj obrázky zo sci-fi produkcie Disney.
Algoritmus obsahuje 12 miliárd parametrov neurónovej siete, ktoré spracováva GPT-3, najväčší generátor jazykov. Ten má vo svojej databáze 175 miliárd parametrov. GPT-3 sa učí na základe vzorcov, ktoré objavuje v údajoch zozbieraných z internetu, od rôznych diskusných skupín a príspevkov, z mienkotvorných médií až po Wikipédiu. Na základe tohto učenia je GPT-3 schopný vykonávať rôzne úlohy bez ďalšieho školenia (vie vytvoriť zaujímavé príbehy, generovať počítačový kód, prekladať, vykonávať matematické výpočty atď).
DALL-E zdokonalil GPT-3 tak, aby rozšíril svoj záber aj na vizuálne koncepty prostredníctvom jazyka. Poskytuje prístup k podmnožine schopností renderovacieho enginu, softvéru využívajúceho funkcie grafických kariet na generovanie obrazu na displejoch alebo vytlačenému v tlačiarni. Tento jazyk sa využívajú napríklad vo videohrách, digitálnom umení, vzdelávaní, v medicíne, ale aj pri architektonickej virtuálizácii budov.
Na rozdiel od 3D renderovacieho 3D modulu, kde musia byť vstupy podrobne a jednoznačne špecifikované, je DALL-E zvyčajne schopný vyplniť „biele miesta“, keď systém naznačuje, že obrázku chýba určitý detail.
Výsledky sú pozoruhodné. Vedci zistili, že umelá inteligencia dokáže preniesť niektoré ľudské činnosti a časti odevu na zvieratá a neživé predmety, napríklad potraviny.
Za takéto obrazy by sa nehanbil ani sám Salvador Dalí, čo poviete?
Keď zadáte DALL-E, aby nakreslil reďkovku ako venčí psa, prikreslí jej nohy a ruky na miesta, kde by ich umiestnil animátor z mäsa a kostí.
Kompozičná povaha jazyka umožňuje pripraviť koncepty na popísanie skutočných aj imaginárnych vecí. Vedci zistili, že DALL-E má „unikátnu schopnosť kombinovať rôznorodé nápady na syntetizáciu predmetov, z ktorých je nepravdepodobné, že by existovali v skutočnom svete“.
GPT-3 dokáže spracovať úlohy pozostávajúce výlučne z popisu a podnetu na vygenerovanie odpovede bez ďalšieho učenia. DALL-E je schopný aplikovať niekoľko rôznych druhov transformácií obrazu na fotografie čajníkov s rôznym stupňom hodnovernosti.
Výskumníci boli prekvapení, keď zistili, že DALL-E „sa dozvedel“ o geografických faktoch, pamiatkách či dokonca štvrtiach. Jeho znalosť bola v niektorých prípadoch mimoriadne presná, no v iných chybná.
Pýtate sa, na čo je niečo takéto dobré? Okrem trénovania umelej inteligencie sa môže kreativita DALL-E využiť veľmi dobre v dizajnérstve (móda, nábytok, produkty). Dokáže ponúknuť nekonvenčné návrhy, ktoré môžu potom ďalej rozvíjať skutoční návrhári. Keďže umelá inteligencia dokáže produkovať obrovské množstvo rôznych variácií, pracovníci v kreatívnom priemysle sa rozhodne nemusia obávať o svoje miesta.