Vzniku 12 obrázků předcházelo 2289 jiných: o tvorbě s pomocí AI s Michalem z Lipo.ink

Ptali jsme se Michala z Lipo.ink, jaký model umělé inteligence (AI) mu pomohl vytvořit obrázky, které kreativně reprezentují firmy Lipo.ink klientů, jaká úskalí proces tvorby obnášel a jak vidí budoucnost s AI.

Ahoj Michale. Před Vánoci jsi pro naše klienty vytvořil s pomocí umělé inteligence obrázky, které kreativně reprezentují jejich firmy. Kde se ten nápad vůbec vzal?

Obrázky jsem sice vytvořil já, ale s tímto skvělým nápadem přišla moje úžasná kolegyně Lucie, které jsem před pár měsíci ukazoval, co všechno dnes umělá inteligence vlastně dokáže. Konkrétně šlo o vygenerované obrázky, které v sobě skrývaly právě jiné obrázky, viditelné, když se člověk soustředil nebo přimhouřil oči. Protože to v tu dobu poměrně trendovalo na internetu a já se o to zajímal, přemýšleli jsme, jak bychom toho mohli nějak využít. Později, při organizaci vánočního večírku, Lucii napadlo, že by mohlo být pěkným dárkem našim klientům vygenerovat obrázky, které by tématicky skrývaly loga firem našich klientů, a ten nápad mě velmi nadchnul.

V současnosti je k dispozici několik pokročilých nástrojů pro generování obrázků pomocí umělé inteligence. Liší se svými schopnostmi, uživatelskou přívětivostí a specifickými využitími. Patří sem třeba Midjourney, DALL-E, DeepArt a další. AI generátory obrázků zařadilo už také Adobe do Photoshopu a Illustratoru, nebo třeba i populární grafický editor Canva. Jaké technologie a nástroje jsi využil ty?

Pro tuhle tvorbu jsem ze základu využil modelu s názvem Stable Diffusion, což je model, který je principiálně velmi podobný modelům, které jsi zmínila, ale zároveň se od všech filozoficky celkem dost liší. Stable Diffusion je na rozdíl od většiny běžných generativních AI open-source, což znamená, že každý může volně nahlédnout do jeho zdrojového kódu, zdarma si jej stáhnout a případně si jej upravit podle svých potřeb. Díky tomu si tento nástroj vybudoval kolem sebe obrovskou komunitu lidí, která jej zásobuje velkou řadou doplňků, nadstavbových nástrojů, vylepšení a hlavně vytrénovaných custom modelů. Za zmínku stojí uživatelská rozhraní AUTOMATIC1111 a ComfyUI, která sama o sobě mají další spoustu doplňků a navíc uživateli nabízí velkou řadu šoupátek, zaklikávátek a nastavení, jak s AI pracovat a vést ho za ručičku tak, abychom dostali kýžený výsledek. A právě díky tomu je tento nástroj velmi univerzální a dovoluje vytvořit to, co zatím běžné komerčně dostupné uzavřené AI vytvořit nedovolují, jako například to, o čem se tu dneska bavíme.

Ale abych byl férový, tak tahle otevřenost a univerzálnost s sebou nese i další úskalí. Pro absolutně volnou tvorbu je potřeba mít model lokálně stažený v počítači a pro jeho používání je třeba grafické karty s dostatečným výkonem, které nebývají zrovna levné. Navíc přítomnost velkého množství nastavení může být odrazující a vyžaduje jistou míru zběhlosti, která v jiných nástrojích není potřeba v takové míře. Z toho hlediska je cloudové řešení Midjourney a ostatních AI přístupnější a jednodušší pro tvorbu líbivých obrázků.

V obrázcích jsou vždy nějakým způsobem zapracovaná loga. Prozradíš nám, jak jsi toho docílil?

Rád! Jedno z dostupných rozšíření umožňuje nahrání černobílých obrázků, které AI napovídají, z čeho tvarově vycházet. Původně to bylo zamýšlené pro tvorbu kreativních QR kódů, které si současně zachovávaly funkčnost, takže je šlo stále chytrým telefonem naskenovat, ale ukázalo se, že stejná technika se dá použít i na jiné věci. Nechci zbytečně zacházet moc do technikálií, ale kdyby někdo chtěl zkusit stejnou věc, používal jsem rozšíření ControlNet doplněné o samostatný model QR Code Monster v2. Určitě doporučuji si případně najít návod někde na internetu.

Jak celý proces vypadal? Kde jsi čerpal inspiraci na to, co na obrázcích bude? I s tím ti pomáhala umělá inteligence, nebo jsi měl vlastní kreativní koncept?

Trochu mám povědomí o tom, čím se firmy našich klientů zabývají. Z toho jsem primárně čerpal inspiraci. Některé firmy se věnují více abstraktním věcem, které jsou hůře znázornitelné konkrétními obrázky, a tam jsem si zkusil vypomoci s AI v návrhu konceptu, ale v tomto ohledu se moje nápady osvědčily více. První krok byl vymyslet zajímavý námět jako prompt, který by s firmou souzněl, byl nápaditý, vypadal dobře a aby si s ním modely AI dokázaly nějak poradit. Pak bylo třeba vybrat vhodný model, který by prompt zpracoval. Existují custom modely pro univerzální použití nebo modely zaměřené na jednu věc, třeba na generování obrázků kávových šálků. Ve finále má model největší vliv na to, jak obrázek bude nakonec vypadat. Když jsem měl vymyšlený prompt, který vypadal dobře sám o sobě, a vybraný model, přidal jsem k promptu černobílý obrázek loga firmy a generoval někdy i několik desítek variant, dokud nevzniklo něco zajímavého a líbivého. Mezi tím probíhala úprava promptu, šoupání šoupátek, měnění nastavení, výměna modelů atd. Dával jsem si záležet, aby výraznost loga v obrázku byla akorát, ani moc nápadná, ani příliš skrytá. Pak na základě jedné povedené varianty obrázku jsem generoval dalších pár iterací s drobnými rozdíly.

Takhle několikrát dokola, dokud jsem nebyl s výsledkem spokojený. Když jsem měl slibného kandidáta, ještě bylo třeba obrázek zvětšit, upscalnout, jinak by to vytištěné nevypadalo dobře nebo by to bylo příliš malé. Naštěstí nástroj, který jsem používal, měl zabudovaný i upscaler, který si také vyžádal další hromadu pokusů a omylů, ale nakonec, s dostatkem trpělivosti, se i to povedlo a obrázky nakonec měly slušné rozlišení 7000x5000 pixelů, s čímž už se dalo pracovat v rámci tisku na větší formáty. Nakonec následovaly finální úpravy ve Photoshopu, poslání do tiskárny, zarámování a dílo bylo hotové.

Kolik času jsi práci na obrázcích věnoval?

Hodiny jsem si nepočítal, ale průběžně jsem na tom pracoval asi měsíc a půl. Nebyl to zas tak přímočarý proces, jak by se mohlo zdát.

Pro představu, vzniku 12 obrázků předcházelo 2289 jiných.

Co byla největší výzva? Která firma ti dala nejvíc “zabrat”?

Největší výzvou skutečně bylo promptování. U EcoHaus, 4Trans a Statotest bylo snadné vymyslet asociace s některými konkrétními věcmi a každý se povedl během pár hodin. Luční květiny, kamióny, mosty a budovy si s AI celkem rozuměly, ale herní enginy, internet věcí, výrobní systémy, počítačem podporovaná montáž s AI moc blízcí kamarádi nejsou. Vymyslet funkční koncept si tady vyžádalo spoustu pokusů a omylů.

Obrovský rozvoj umělé inteligence je v posledních měsících hodně znát. Čím dál víc ji využíváme ke generování obrázků, textů. V Lipo.ink nezůstáváme pozadu. I se vzděláváme – měli jsme tu například Brain&Breakfast s Filipem Dřímalkou, který v souvislosti s AI hovoří o “budoucnosti nepráce.” K čemu ty osobně umělou inteligenci využíváš? Je již součástí tvojí běžné práce?

Využívám! Nejvíce asi na práci s textem – když potřebuji krátce shrnout obsáhlý text nebo přeformulovat své myšlenky do celistvého textu, který má hlavu a patu. Jinak se ale AI pomalu stává mým osobním amatérským asistentem, který je stále při ruce, ať už jde o pomocníka při brainstormingu, programování, učení, vyhledávání a dalších věcech.

A co si myslíš o přínosech a negativech AI? Vnímáš nějaká rizika? Jak bude vypadat budoucnost s umělou inteligencí podle tebe?

Budoucnost vnímám velmi pozitivně. Hlavně co se týče využití AI ve zdravotnictví, v prevenci a včasném odhalení závažných nemocí, samořídících autech, efektivním plánování zdrojů a dalších technologií, kterých nám AI pomůže dosáhnout. Myslím, že AI uvidíme uplatněnou ve všech oborech a činnostech, ale nemyslím si, že AI zcela nahradí člověka. Člověk bude stále potřeba, stejně jako je potřeba pilot v letadle, které převážně letí na autopilota. Určitě učiní to, že nebude potřeba tolik lidí na nějaký úkol jako doposud. Je to součást automatizace, která člověku šetří čas, přebírá za něj činnosti, které většinou nebývají nejzábavnější, a díky tomu se člověk může věnovat více naplňujícím věcem. Negativa vnímám asi převážně v možném nadužívání AI, pokud na ní bude člověk příliš spoléhat a stane se příliš závislým, může to v budoucnu přinést problémy. Je stále třeba kriticky myslet nad tím, co nám AI nabízí.

Shrnul bych to příslovím Dobrý sluha, špatný pán.

A teď ještě něco o tobě – obyvatelé a návštěvníci Lipo.ink tě mohou potkávat na recepci. Jak jsi se k téhle práci dostal a co ti přináší? A jak dlouho už v Lipo.ink jsi?

Na recepci Lipo.ink jsem se dostal přes kamarádku, která sama pracovala na recepci a doporučila mě jako kolegu. Lipo.ink je pro mě skvělým prostředím, kde vznikají skvělé nápady od ještě skvělejších lidí.

Pověz nám něco o svém studiu – jaký je tvůj obor, v jakém jsi ročníku…

Studuji na místní technické univerzitě bakalářský program strojírenství a jsem ve závěrečném třetím ročníku. Současně píšu svoji bakalářskou práci, při které si mimochodem také vypomáhám umělou inteligencí, v rozumné míře samozřejmě, tak jak nám univerzita dovoluje. A to si myslím, že je velmi fajn, když univerzita sama akceptuje užití AI a dokonce ji podporuje jako učební pomůcku.

Máš vedle umělé inteligence i jiné zájmy nebo koníčky?

Moje koníčky se s dobou celkem mění. Ale vedle AI stále rád pracuji s 3D grafikou v programu Blender, experimentuji s fotoaparátem, poslouchám progresivní rock, hraji deskové a počítačové hry s přáteli, a pak taková ta klasika – filmy, knihy, seriály.

A jaké jsou tvé plány po dokončení studia?

Brát, co život nabídne.