Home » AI Art Showdown: Jak wypadają najlepsze narzędzia MidJourney, Stable Diffusion v1.5 i SDXL?

AI Art Showdown: Jak wypadają najlepsze narzędzia MidJourney, Stable Diffusion v1.5 i SDXL?

by Tim

Era sztuki generowanej przez sztuczną inteligencję jest w toku, a trzech tytanów wyłoniło się jako ulubione narzędzia twórców cyfrowych: Nowe SDXL od Stability AI, stare dobre Stable Diffusion v1.5 i ich główny konkurent: MidJourney.

Dall-E firmy OpenAI zapoczątkował tę rewolucję, ale jego brak rozwoju i fakt, że jest to zamknięte źródło, oznaczają, że Dall-E 2 nie wyróżnia się w żadnej kategorii na tle swoich konkurentów. Jednak, jak TCN poinformował kilka dni temu, może się to zmienić w przyszłości, ponieważ openAI testuje nową wersję Dall-E, która podobno jest kompetentna i tworzy wyjątkowe dzieła.

Z unikalnymi mocnymi stronami i ograniczeniami, wybór odpowiedniego narzędzia spośród wiodących platform jest kluczowy. Zanurzmy się w tym, jak te technologie sztuki generatywnej układają się pod względem możliwości, wymagań, stylu i piękna.

MidJourney: furtka dla sztuki AI

Théâtre d'Opéra Spatial, obraz Midjourney, który zdobył pierwszą nagrodę w konkursie sztuki cyfrowej

Théâtre d’Opéra Spatial, obraz Midjourney, który zdobył pierwszą nagrodę w konkursie sztuki cyfrowej


Jako najbardziej przyjazna dla użytkownika z całej trójki, MidJourney sprawia, że sztuka AI jest dostępna nawet dla nietechnicznych użytkowników – pod warunkiem, że są na bieżąco z Discordem. Platforma działa prywatnie na serwerach MidJourney, a użytkownicy wchodzą w interakcje za pośrednictwem czatu Discord. To zamknięte podejście ma zarówno zalety, jak i wady. Z drugiej strony, nie potrzebujesz żadnego specjalistycznego sprzętu ani umiejętności AI. Jednak brak przejrzystości open-source wokół modelu MidJourney i danych treningowych sprawia, że jest on dość ograniczony pod względem tego, co można zrobić – i uniemożliwia entuzjastom jego ulepszenie.

MidJourney to gładko mówiący czarodziej, uwielbiany przez początkujących za przyjazny dla użytkownika interfejs Discord. Wystarczy wystrzelić do bota monit tekstowy i voila, w kilka minut mamy estetyczne arcydzieło. Haczyk? Cena 96 USD rocznie jest wysoka jak na sztuczną inteligencję, której nie można dostosować ani uruchomić lokalnie. Ale hej, przynajmniej będziesz wyglądać artystycznie (i nerdowsko) na imprezach!

Funkcjonalnie, MidJourney szybko generuje obrazy na podstawie podpowiedzi tekstowych, z imponującą spójnością estetyczną. Jeśli jednak zagłębimy się w konkretną tematykę, wyniki stają się jeszcze bardziej zaskakujące. MidJourney lubi dodawać własne akcenty do każdej kreacji, nawet jeśli nie jest to zgodne z wyobrażeniami twórcy. Dlatego większość obrazów może być nasycona pompą kontrastu i mieć tendencję do bycia bardziej fotorealistycznymi niż realistycznymi, do tego stopnia, że po pewnym czasie ludzie identyfikują obrazy stworzone za pomocą MidJourney na podstawie ich cech estetycznych.

W przypadku MidJourney swoboda twórcza jest również ograniczona przez surowe zasady dotyczące treści na platformie. Jest ona agresywnie cenzurowana, zarówno społecznie (pod względem przedstawiania nagości lub przemocy), jak i politycznie (pod względem kontrowersyjnych tematów i określonych liderów). Ogólnie rzecz biorąc, MidJourney oferuje kuszącą bramę do sztuki AI – ale zaawansowani użytkownicy będą spragnieni większej kontroli i możliwości dostosowywania. Wtedy właśnie do gry wkracza Stable Diffusion.

Stable Diffusion v1.5: 'Ol’ Reliable’ of AI art

Untitled image created by user ThaiTvNews using a custom SD v.15 model.

Untitled image created by user ThaiTvNews using a custom SD v.15 model.


Jeśli MidJourney to przejażdżka na kucyku, to Stable Diffusion v1.5 jest niezawodnym koniem roboczym. Jako model open-source, który jest aktywnie rozwijany od ponad roku, Stable Diffusion v1.5 zasila wiele najpopularniejszych obecnie narzędzi do tworzenia sztucznej inteligencji, takich jak Leonardo AI, Lexica, Mage Space i wszystkie te generatory AI waifu, które są teraz dostępne w sklepie Google Play.

Aktywna społeczność MidJourney dokonała iteracji na modelu bazowym, aby stworzyć wyspecjalizowane punkty kontrolne, osadzenia i LoRA, koncentrując się na wszystkim, od stylizacji anime po skomplikowane krajobrazy, hiperrealistyczne zdjęcia i nie tylko. Wady? Cóż, zaczyna pokazywać swój wiek obok młodszych AI whippersnappers.

Wprowadzając kilka poprawek pod maską, Stable Diffusion v1.5 może generować wyraźne, szczegółowe obrazy dostosowane do kreatywnej wizji. Rozdzielczość wyjściowa jest obecnie ograniczona do 512×512 lub czasami 768×768 przed pogorszeniem jakości, ale techniki szybkiego skalowania pomagają. Popularność skalowania kafelkowego również zwiększyła popularność tego modelu, umożliwiając generowanie obrazów w super rozdzielczości, znacznie wykraczającej poza możliwości MidJourney.

Obecnie jest to jedyna technologia obsługująca inpainting (zmienianie elementów wewnątrz obrazu). Outpainting – pozwalający modelowi rozszerzyć obraz poza jego ramkę – jest również obsługiwany. Jest wielokierunkowa, co oznacza, że użytkownicy mogą rozszerzać swój obraz zarówno w osi pionowej, jak i poziomej. Obsługuje również wtyczki innych firm, takie jak roop (używany do tworzenia głębokich podróbek), After Detailer (do ulepszania twarzy i dłoni), Open Pose (do naśladowania określonej pozy) i podpowiedzi regionalne.

Twórcy sugerują, że do jej uruchomienia potrzebna będzie karta graficzna Nvidia RTX z serii 2000 lub lepsza, aby uzyskać przyzwoitą wydajność, ale lekka wersja Stable Diffusion v1.5 działa płynnie nawet na kartach z 4 GB pamięci VRAM. Pomimo swojego wieku, solidne wsparcie społeczności utrzymuje tę sztukę AI OG solidnie na szczycie swojej gry.

SDXL: Następna granica sztuki AI

Untitled Image created by user Buzimage using a customized SDXL model

Untitled Image created by user Buzimage using a customized SDXL model


Jeśli Stable Diffusion v1.5 jest niezawodnym koniem roboczym, to SDXL jest młodym koniem wyścigowym pędzącym po torze wyścigowym. Ten potężny model, również od Stability AI, wykorzystuje podwójne kodery tekstu, aby lepiej interpretować podpowiedzi, a jego dwuetapowy proces generowania zapewnia doskonałą spójność obrazu w wysokich rozdzielczościach.

Te możliwości brzmią ekscytująco, ale sprawiają również, że SDXL jest nieco trudniejszy do opanowania. Jeden koder tekstu lubi krótki język naturalny, a drugi używa stylu SD v1.5 z posiekanymi, konkretnymi słowami kluczowymi do opisania kompozycji.

Dwuetapowe generowanie oznacza, że do umieszczenia szczegółów w głównym obrazie wymagany jest model rafinacji. Wymaga to czasu, pamięci RAM i mocy obliczeniowej, ale wyniki są wspaniałe.

SDXL jest gotowy, by zwrócić na siebie uwagę. Obsługując prawie 3 razy więcej parametrów niż Stable Diffusion v1.5, SDXL generuje obrazy w rozdzielczości o prawie 50% większej niż jego poprzednik, nie tracąc przy tym ani chwili. Ta najnowocześniejsza wydajność ma jednak swoją cenę: SDXL wymaga GPU z co najmniej 6 GB pamięci VRAM, wymaga większych plików modeli i nie posiada wstępnie wyszkolonych specjalizacji.

Wyjściowe wyniki nie są jeszcze na równi z precyzyjnie dostrojonym modelem Stable Diffusion. Jednak w miarę jak społeczność pracuje nad magią optymalizacji, potencjał SDXL zdmuchuje drzwi z tego, co jest możliwe w dzisiejszych modelach.

Porównania wyników

Obraz jest wart tysiąca słów, więc podsumowaliśmy kilka tysięcy zdań, próbując porównać różne wyjścia przy użyciu podobnych podpowiedzi, abyś mógł wybrać ten, który najbardziej Ci się podoba. Należy pamiętać, że każdy model wymaga innej techniki podpowiadania, więc nawet jeśli nie jest to porównanie jabłek do jabłek, jest to dobry punkt wyjścia.

Aby być bardziej szczegółowym, użyliśmy dość uogólnionej negatywnej podpowiedzi dla Stable Diffusion, czegoś, czego MidJourney tak naprawdę nie potrzebuje. Poza tym podpowiedzi są takie same, a wyniki nie zostały wybrane ręcznie.

  • Prompt: Portret corgi jadącego na rowerze przez morze


Komentarz: Tutaj jest tylko kwestia stylu między SDXL i MidJourney. Oba pokonują Stable Diffusion v1.5, mimo że wydaje się być jedynym, który jest w stanie stworzyć psa, który prawidłowo „jeździ” na rowerze, a przynajmniej używa go poprawnie.

  • Prompt: Plac Czerwony nocą


Komentarz: MidJourney próbował stworzyć czerwony kwadrat w The Red Square. SDXL v1.0 jest bardziej ostry, ale kontrast kolorów jest lepszy na SD v.15 (Model: Juggernaut v5).

  • Prompt: Biuściasta nauczycielka w futurystycznej klasie


Komentarz: MidJourney odmówiło wygenerowania obrazu ze względu na swoje zasady cenzury. SDXL jest bogatszy w szczegóły, dzięki czemu można stworzyć zarówno biuściastą nauczycielkę, jak i futurystyczną klasę. SD v1.5 koncentrowało się bardziej na biuściastej nauczycielce (temat. Model: Photon v1), a mniej na szczegółach otoczenia.

  • Prompt: mózg zasilający maszynę, jeffrey smith i h.r. giger, bardzo szczegółowy w 4k, autor: Nishida Shun’ei, plakat, narzędzie, bardzo szczegółowy epicki, epicki cyberpunk, studio muti, bitmapa, autor: Sugimura Jihei


Komentarz: Zarówno MidJourney, jak i SDXL dały wyniki, które trzymają się podpowiedzi. SDXL lepiej odtworzył styl artystyczny, podczas gdy MidJourney skupił się bardziej na stworzeniu estetycznego obrazu zamiast odtworzenia stylu artystycznego, stracił także wiele szczegółów podpowiedzi (na przykład: obraz nie pokazuje mózgu zasilającego maszynę, ale zamiast tego jest to czaszka zasilająca maszynę).

Przyszłość sztuki generatywnej

Którego Moneta-trenera powinieneś użyć? Szczerze mówiąc, nie można pomylić się z żadną z tych opcji. MidJourney wyróżnia się użytecznością i spójnością estetyczną. Stable Diffusion v1.5 oferuje możliwość personalizacji i wsparcie społeczności. SDXL przesuwa granice fotorealistycznego generowania obrazu. Tymczasem bądź na bieżąco, aby zobaczyć, co Dall-E ma do zaoferowania.

Nie wierz nam na słowo. Pędzel jest teraz w twoich rękach, a puste płótno czeka. Chwyć wybrane narzędzie generatywne i zacznij tworzyć! Tylko może ogranicz egzystencjalne zagrożenia dla ludzkości do minimum, proszę.

Related Posts

Leave a Comment