Umělecká přehlídka uměleckých děl: Jak si vedou špičkové nástroje MidJourney, Stable Diffusion v1.5 a SDXL?

Věk umění generovaného umělou inteligencí je v plném proudu a mezi oblíbenými nástroji digitálních tvůrců se objevili tři titáni: Nový SDXL od Stability AI, její starý dobrý Stable Diffusion v1.5 a jejich hlavní konkurent: MidJourney.

Dall-E od OpenAI tuto revoluci odstartoval, ale jeho nedostatečný vývoj a skutečnost, že se jedná o uzavřený zdrojový kód, znamenají, že Dall-E 2 nevyniká v žádné kategorii oproti svým konkurentům. Jak však před několika dny informoval TCN, to by se mohlo v budoucnu změnit, protože openAI testuje novou verzi Dall-E, která je údajně kompetentní a produkuje vynikající díla.

Vzhledem k jedinečným silným stránkám a omezením je výběr správného nástroje z předních platforem klíčový. Pojďme se ponořit do toho, jak si tyto technologie generativního umění stojí z hlediska schopností, požadavků, stylu a krásy.

MidJourney: vstupní brána pro umění umělé inteligence

Théâtre d’Opéra Spatial, obraz Midjourney, který získal první cenu v soutěži digitálního umění

Jako uživatelsky nejpřívětivější z této trojice zpřístupňuje MidJourney umění umělé inteligence i netechnickým uživatelům – za předpokladu, že ovládají Discord. Platforma běží soukromě na serverech MidJourney a uživatelé spolu komunikují prostřednictvím chatu Discord. Tento uzavřený přístup má své výhody i nevýhody. Pozitivní je, že nepotřebujete žádný specializovaný hardware ani dovednosti v oblasti umělé inteligence. Ale nedostatek transparentnosti otevřeného zdrojového kódu kolem modelu MidJourney a tréninkových dat jej činí dosti omezeným, pokud jde o to, co můžete dělat – a znemožňuje nadšencům, aby jej vylepšili.

MidJourney je hladce mluvící okouzlující z této skupiny, kterou si začátečníci oblíbili pro její uživatelsky přívětivé rozhraní Discord. Stačí vystřelit botovi textovou výzvu a voilá, během několika minut máte estetické mistrovské dílo. Háček? Za 96 dolarů ročně je to drahé za umělou inteligenci, kterou si nemůžete přizpůsobit nebo spustit lokálně. Ale hej, alespoň budete na večírcích vypadat umělecky (a nerdovsky)!

Z funkčního hlediska MidJourney chrlí obrázky rychle na základě textových pokynů a s působivou estetickou soudržností. Pokud se však ponoříte hlouběji do konkrétního tématu, výstup se stane ještě podivnějším. MidJourney rád vkládá do každého výtvoru vlastní nádech, i když to není to, co si zadavatel představoval. Většina obrázků tak může být nasycena pumpou v kontrastu a má tendenci být více fotorealistická než realistická, a to až do té míry, že po nějaké době lidé začnou identifikovat obrázky vytvořené pomocí MidJourney na základě jejich estetických vlastností.

V případě MidJourney je vaše tvůrčí svoboda omezena také přísnými pravidly obsahu platformy. Je agresivně cenzurována, a to jak ze společenského hlediska (pokud jde o zobrazování nahoty nebo násilí), tak z politického (pokud jde o kontroverzní témata a konkrétní vůdce). Celkově MidJourney nabízí lákavou vstupní bránu do umění umělé inteligence – zkušení uživatelé však budou prahnout po větší kontrole a možnostech přizpůsobení. V tu chvíli přichází na řadu stabilní difúze.

Stable Diffusion v1.5: „starý spolehlivý“ umělecké inteligence

Obrázek bez názvu vytvořený uživatelem ThaiTvNews pomocí vlastního modelu SD v.15.

Pokud je MidJourney jízda na poníkovi, je Stable Diffusion v1.5 spolehlivý pracovní kůň. Jako model s otevřeným zdrojovým kódem, který je aktivně vyvíjen již více než rok, pohání Stable Diffusion v1.5 mnoho dnes nejpopulárnějších nástrojů pro umělou inteligenci, jako je Leonardo AI, Lexica, Mage Space a všechny ty generátory AI waifu, které jsou nyní k dispozici v obchodě Google Play.

Aktivní komunita MidJourney iterovala na základním modelu a vytvářela specializované kontrolní body, embeddings a LoRA zaměřené na vše od anime stylizace po složité krajiny, hyperrealistické fotografie a další. Nevýhody? No, začíná se projevovat jeho stáří vedle mladších AI bičů.

Díky několika úpravám pod kapotou může Stable Diffusion v1.5 generovat ostré a detailní obrázky přizpůsobené vaší tvůrčí vizi. Výstupní rozlišení je v současné době omezeno na 512×512 nebo někdy 768×768, než dojde ke zhoršení kvality, ale pomáhají techniky rychlého škálování. Oblibu modelu zvýšila také technologie dlaždicového upscalingu, díky níž je schopen generovat obrázky v super rozlišení, které dalece přesahuje možnosti programu MidJourney.

V tuto chvíli je to jediná technologie, která podporuje inpainting (změnu věcí uvnitř obrázku). Podporováno je také vybarvování – model může rozšířit obrázek za jeho rámec. Je vícesměrná, což znamená, že uživatelé mohou rozšiřovat obraz ve svislé i vodorovné ose. Podporuje také zásuvné moduly třetích stran, jako je roop (slouží k vytváření deepfakes), After Detailer (pro vylepšení obličejů a rukou), Open Pose (pro napodobení konkrétní pózy) a regionální nápovědy.

Tvůrci naznačují, že k jejímu spuštění budete pro slušný výkon potřebovat grafický procesor Nvidia RTX řady 2000 nebo lepší, ale Stable Diffusion v1.5 s nízkou hmotností běží plynule i na kartách se 4 GB VRAM. Navzdory svému stáří udržuje solidní podpora komunity tento umělecký OG pevně na špičce své hry.

SDXL: Další hranice umění umělé inteligence

Untitled Image created by user Buzimage using a customized SDXL model

Je-li Stable Diffusion v1.5 spolehlivým pracovním koněm, pak SDXL je mladým plnokrevníkem, který se prohání po závodní dráze. Tento výkonný model, rovněž od společnosti Stability AI, využívá duální textové kodéry pro lepší interpretaci výzev a jeho dvoustupňový proces generování dosahuje vynikající koherence obrazu při vysokém rozlišení.

Tyto schopnosti znějí vzrušujícím způsobem, ale zároveň činí SDXL o něco obtížnějším na zvládnutí. Jeden textový kodér má rád krátký přirozený jazyk a druhý používá styl SD v1.5 s rozsekanými, specifickými klíčovými slovy pro popis kompozice.

Dvoufázové generování znamená, že je potřeba upřesňující model, který vloží detaily do hlavního obrázku. Vyžaduje to čas, paměť RAM a výpočetní výkon, ale výsledky jsou nádherné.

SDXL je připraven otočit hlavou. SDXL podporuje téměř trojnásobek parametrů verze Stable Diffusion v1.5, a tak se pořádně zapotí – generuje obrázky s rozlišením téměř o 50 % větším než jeho předchůdce, aniž by se zapotil. Tento špičkový výkon má však svou cenu: SDXL vyžaduje grafický procesor s minimálně 6 GB paměti VRAM, vyžaduje větší soubory modelů a postrádá předtrénované specializace.

Výstup z krabice se zatím nevyrovná precizně vyladěnému modelu Stable Diffusion. Jakmile však komunita zapracuje na optimalizačních kouzlech, potenciál SDXL vyrazí dech možnostem dnešních modelů.

Srovnání výstupů

Obrázek vydá za tisíc slov, proto jsme shrnuli několik tisíc vět, ve kterých se snažíme porovnat různé výstupy pomocí podobných výzev, abyste si mohli vybrat ten, který se vám líbí nejvíce. Vezměte prosím na vědomí, že každý model vyžaduje jinou techniku výzvy, takže i když se nejedná o srovnání jablek s jablky, je to dobrý výchozí bod.

Abychom byli konkrétnější, použili jsme docela obecnou negativní výzvu pro Stabilní difúzi, což MidJourney ve skutečnosti nepotřebuje. Jinak jsou výzvy stejné a výsledky nebyly vybrány ručně.

Prompt:

Portrét corgiho jedoucího na kole přes moře

Komentář: Zde je jen otázkou stylu mezi SDXL a MidJourney. Obě poráží Stable Diffusion v1.5, i když se zdá, že jako jediná dokáže vytvořit psa, který na kole správně „jezdí“, nebo ho alespoň správně používá.

Prompt: Červené náměstí v noci

Komentář: MidJourney se pokusil vytvořit červený čtverec na Červeném náměstí. SDXL v1.0 je ostřejší, ale kontrast barev je lepší na SD v.15 (Model: Juggernaut v5).

Prompt: Prsatá učitelka ve futuristické třídě

Komentář: MidJourney odmítl vygenerovat obrázek kvůli svým cenzurním pravidlům. SDXL je bohatší na detaily pečující o výrobu prsaté učitelky i futuristické třídy. SD v1.5 se více zaměřil na prsatou učitelku (předmět. Model: Photon v1) a méně na detaily prostředí.

Prompt: mozek pohánějící stroj, jeffrey smith a h.r. giger, velmi detailní ve 4k, autor: Nishida Shun’ei, plakát, nástroj, velmi detailní epický, epický kyberpunk, studio muti, bitmapa, autor: Sugimura Jihei

Komentář: Jak MidJourney, tak SDXL přinesly výsledky, které se drží výzvy. SDXL lépe reprodukoval umělecký styl, zatímco MidJourney se místo obnovení uměleckého stylu zaměřil spíše na vytvoření estetického obrázku, ale také ztratil mnoho detailů výzvy (například: obrázek nezobrazuje mozek pohánějící stroj, ale místo toho je to lebka pohánějící stroj).

Budoucnost generativního umění

Tak kterého Moneta-in-training byste měli použít? Upřímně řečeno, chybu neuděláte s žádnou z těchto možností. MidJourney vyniká použitelností a estetickou soudržností. Stabilní Diffusion v1.5 nabízí možnost přizpůsobení a podporu komunity. A SDXL posouvá hranice fotorealistického generování obrázků. Mezitím zůstaňte naladěni a sledujte, co chystá Dall-E.

Neberte nás jen za slovo. Štětec je nyní ve vašich rukou a prázdné plátno čeká. Vezměte si svůj vybraný generativní nástroj a začněte tvořit! Jen možná omezte existenční hrozby lidstvu na minimum, prosím.

Umělecká přehlídka uměleckých děl: Jak si vedou špičkové nástroje MidJourney, Stable Diffusion v1.5 a SDXL?

MidJourney: vstupní brána pro umění umělé inteligence

Stable Diffusion v1.5: „starý spolehlivý“ umělecké inteligence

SDXL: Další hranice umění umělé inteligence

Srovnání výstupů

Budoucnost generativního umění

BALD Meme Coin na Coinbase Layer-2 klesne na nulu, protože Dev stáhne likviditu

Margot Robbie v roli Barbie říká, že Bitcoin je pro „Kens“, zatímco Mattel prosazuje NFTs

Related Posts

Leave a Comment Cancel Reply