- #Umelá inteligencia
- 3 min.
- 25.9.2023
DALL-E 3 mieri priamo do ChatGPT, na želanie vám vytvorí aj rozprávkovú knižku
Model pre generovanie obrázkov na základe textového popisu, dôvtipne pomenovaný DALL-E, dostáva už svoju tretiu generáciu už čoskoro prístupnú širšej verejnosti. Spoločnosť OpenAI ho tentokrát integrovala priamo do svojho populárneho četbota ChatGPT.
Vzájomným prepojením textového četbota s generátorom obrázkov získava OpenAI značnú výhodu oproti modelom, akú sú Midjourney ale aj pôvodnému DALL-E 2.
Názov modelu DALL-E je kombináciou mena slávneho španielskeho maliara Salvador Dalího a zároveň milého robota WALL-E z rozprávky od Pixaru. Umenie podobné tomu, aké tvoril Dalí, vo všetkej úcte k nemu, už dokázal vytvárať aj DALL-E 2. Na druhej strane však v porozumení človeku za svojim robotickým rozprávkovým vzorom výrazne zaostávala.
Doterajšie text-to-image modely, vrátane DALL-E 2 a Midjourney, zvyknú ignorovať subjektívne opisy toho, čo si vlastne na požadovanom obrázku predstavujete mať. Namiesto požiadaviek napísaných „ľudskou rečou“, je týmto modelom potrebné písať požiadavky tak trochu strojovo. Aj vďaka tomu sa s rastom popularity AI modelov začalo hovoriť o potenciálnom vzniku novej zručnosti či priamo zamestnania – prompt engineers, teda niečo ako inžinier požiadaviek pre AI.
Spoločnosť OpenAI nám však ukazuje, že takéto zamestnanie možno napokon nikdy nevznikne. Samotný četbot ChatGPT už totiž dokáže porozumieť človeku pomerne dobre a tak integrácia novej generácie text-to-image modelu DALL-E 3 dáva dokonalý zmysel. Nový model podľa slov spoločnosti chápe podstatne viac nuáns a detailov, čo vám „umožní jednoducho previesť vaše nápady do výnimočne presných obrázkov“.
OpenAI si na ilustráciu schopností ChatGPT+DALL-E 3 vybralo dokonalý príklad – schopnosť umelej inteligencie v krátkom textovom rozhovore vytvoriť na základe nápadu dieťaťa vlastnú unikátnu rozprávkovú postavičku s jej unikátnymi vlastnosťami, napísať o nej príbeh a následne k tomu práve pomocou novej generácie obrazového modelu aj vytvoriť krásne ilustrácie.
OpenAI samozrejme ubezpečuje, že do modelu zahrnula viacero bezpečnostných prvkov, ktoré majú zabrániť jeho zneužitiu na tvorbu potenciálne škodlivých alebo nevhodných obrázkov. Model tak môže ignorovať vybrané slová a odmietnuť vytvoriť obrázky, ktoré by mali znázorňovať konkrétne známe osobnosti.
Podľa prvých zverejnených obrázkov sa zdá, že DALL-E 3 bude v porovnaní s Midjourney ešte stále viac umelecky, než fotorealisticky ladený model. Reálne schopnosti nového modelu spoznáme až v októbri, kedy bude sprístupnený pre používateľov ChatGPT Plus a Enterprise. Neskôr na rad príde prístup pre výskum a API, kdežto so sprístupnením modelu pre neplatiacich používateľov sa v tejto chvíli nepočíta.