
Kilka słów na początek
Tak jak obiecałem tym razem dałem generatorom obrazów trudniejsze zadanie. Musiały przygotować obrazek nie z tego co znają ale coś o czym nie mają pojęcia. Czyli o autorskim świecie o którym niema nic w danych treningowych i Internecie 😉 Jak obiecałem tym razem wyzwaniem były sceny batalistyczne. I tu zdecydowanie jeden model się wyróżnia. wystarczy że spojrzycie na zdjęcie powyżej a pewnie zgadniecie który to model. Ale zróbmy to po kolei 🙂
Osiągnięcie jednak właściwych efektów wcale takie proste nie jest. żeby zbudować odpowiedni obrazek LLM musi się wykazać olbrzymią konsekwencją. Niemal nie możliwe jest by zrobić to jednym promptem. Nie dlatego że nie sposób tego opisać ze szczegółami ale ze względu na ograniczenia generatorów które obsługują czy raczej są w stanie pracować z 10 może 15 elementami naraz. dlatego najpierw szczegółowo opisałem główna postać elfa mistrza magii ognia od wyglądu przez atrybuty a dopiero potem gdy już jego wersja wyglądała akceptowalnie opisałem scenę z jego udziałem i to rozwiązanie zadziałało jak trzeba.
Żeby nie było tak prosto, jeśli scena ma przedstawiać pojedynek dwóch postaci to trzeba je obie najpierw odpowiednio opracować i wtedy opisać scenę walki z ich udziałem, kto co robi kto wygrywa, jeśli maja jakieś ikoniczne elementy bronie zbroje to zanim zabierzecie się za modelowanie postaci najpierw warto wymodelować ich artefakty więc zabawa jest niezła. szczegółowy opis miecza to już na starcie co najmniej 4 do 5 elementów do przetworzenia więc czasem warto najpierw opisać miecz a potem władającego nim i tylko wywołać opisany wcześniej artefakt poprzez nazwę . Ale przejdźmy do samej oceny efektów.
DALL-E od Open AI
Tu już jeden prompt sie nie sprawdza z każdym generatorem pracuje się trochę inaczej przy takich zadaniach.
jako że to pierwszy generator to na jego przykładzie pokaże też cały proces twórczy w 3 krokach. Na początek sam wygląd :
121 letni elf mężczyzna wzrost 184 cm waga 61 kg Sylwetka szczupła ale umięśniona i proporcjonalna Kolor skóry Złotawa oczy okrągłe, średnie, srebrzyste tęczówki źrenice okrągłe Rzęsy normalne gęste czarne Uszy długie szpiczaste elfie twarz pociągła złocista, nos prosty długi i wąski kształt brwi delikatnie łukowate, średniej grubości, jasnobrązowe usta pełne, soczyste, mięsiste ,średniej szerokości, delikatnie brązowe Włosy średniej długości, proste, jasnobrązowe, z jednym siwym pasemkiem, włosy są uniesione postrzępione potargane bałagan broda krótka, kozia bródka, jasnobrązowa Kości Policzkowe wysokie i wystające, delikatne policzki Gęstość Piegów kilka jasnobrązowych na nosie i pod lewym okiem brak wyraźnych skupisk raczej pojedyncze i nieregularne Klatka piersiowa szeroka jak na elfa ale niezbyt masywna raczej delikatnie umięśniona podobnie ramiona Masywność ramion i Klatki Piersiowej średnia


Obrazek po prawej to już efekt kolejnego etapu czyli stylizacji:
nasz elf to mistrz magii ognia więc dajmy mu czerwoną szatę z złoconymi wykończeniami, jedwabną dopasowana do ciała kończącą się przed kolanami. Przylegajace czerwone materiałowe spodnie, wysokie dopasowane brązowe skórzane buty. W prawej ręce trzyma ognisty miecz który wygląda jakby jego ostrze było z lawy a nie metalu i płonęło ogniem. rękojeść jest normalna zakończona rubinem. jelec prosty złoty, ponad lewą ręka unosi się dopiero co powstająca kula ognista. w tle wejście do biblioteki w stylu antycznym greckim.
no i na koniec efekt finalny i prompt końcowy : teraz scena batalistyczna w układzie poziomym jeśli potrafisz to w układzie 16:9. Urnst to mistrz magii ognia który stworzył zaklęcie „ogniste skrzydła Urnsta” pozwala mu ono lewitować a same skrzydła są z żywego ognia i sieją strach w wrogach podobnie jak u smoków. scena batalistyczna to Urnst pod wpływem własnego zaklęcia „ogniste skrzydła Urnsta” unosi się nad polem bitwy ciskając w uciekające orki kulami ognia. orki na pierwszym planie płoną ogniem.

No więc przyszedł czas na ocenę efektów : Pierwszy obrazek gdy chodzi o nasza główna postać oddaje to co powinien Urnst jak najbardziej odpowiada opisowi i moim wyobrażeniom z wyjątkiem tylko bródki której prawie niema. Drugi element gdy już stylizujemy go i ubieramy a jednocześnie wywołujemy pełna sylwetkę, co siłą rzeczy powoduje oddalenie kadru już nie jest idealny. Zarówno nowe rzeczy jak miecz w opisie którego było że jego ostrze wygląda jakby było z lawy a sam miecz płonie tutaj zostało mocno uproszczone do wijącego się języka ognia. Twarz trochę traci na dokładności odwzorowania też wkradają się uproszczenia nie jest idealna tu już niema nawet cienia bródki 🙂 ale wciąż poza drobnymi mankamentami nie można się przyczepić do większych farfocli.
Ostatnie zdjęcie oddaje klimat i ma efekt o który chodziło, ale znowu przy przenoszeniu głównej postaci pojawiają się uproszczenia. miecz nagle jest krótki i bardziej przypomina różdżkę albo kolejny ognisty pocisk niż miecz. Zniknął jelec i rubin w rękojeści a Urnst wygląda jakby skrzydła nie wyrastały mu z pleców tylko wisiały gdzieś za nim, ale to no cóż mój błąd nie napisałem wprost że powinny mu z pleców wyrastać więc przymknę na to oko.
Podsumowując w tej kwestii Chat GPT się obronił i to dobrze uczciwie daje 8,5 / 10.
Nano Banana od Googla
To będzie chyba najkrótsza recenzja jaką napisze bo obrazki powinny mówić same za siebie. Niczego nie mogę się przyczepić może poza tym że od początku poszedł w kadr poziomy i pierwszy obrazek to w zasadzie tylko twarz ale wszystko się zgadza, kolor włosów, pasemko, broda, nawet srebrne oczy a to sztuka co najwyżej piegi powinny być na nosie i pod tylko lewym okiem. no ale to raczej drobiazg szło by to wywabić 🙂

No i tu (obrazek poniżej) zgadza się już wszystko nowe elementy tło ubiór nawet płonący miecz o ostrzu z lawy.

Na koniec ta rozbrajająca konsekwencja, nasz bohater praktycznie nie zmieniony w pozycji lotu czy raczej lewitacji z skrzydłami które są jego integralną częścią, z mieczem który nadal wygląda jak miecz , dokładnie ten sam miecz. Scena tak wyrazista że nie mogę dać innej oceny jak 10 / 10.

Na marginesie, testując dla was Groka 4.1. niemal nie bawiłem się Gemini od premiery wersji 3.0. Do niedawna nadal myślałem że potrafi generować tylko przeciętne kwadratowe obrazki, a tu taki zaskok. Zdecydowanie jest to obecnie najlepszy generator do pracy z tym co nam w głowie świta, a czego raczej nie znajdzie żaden LLM w swoich danych treningowych czy internecie.
Imagine od X AI
Cóż generator od X AI sprawdza się gorzej w kilku aspektach sami zobaczcie.


Jeśli chodzi o Groka to trzeba odróżnić to co wywołujecie w zwykłym wątku w chacie, a to co tworzymy w Imagine. Tworząc coś w Imagine dostajemy całkiem sporo wersji naszego promptu, przy czym większość jest badziewna i nie sposób jej wykorzystać. Powyżej dwa obrazki po lewej ten który wykorzystałem do dalszej edycji a po prawej przykład jeden z wielu, bardzo wielu. nietypowy kolor skóry to dla Groka wciąż problem. A nawet jak już jest pełne pokrycie to postać wygląda jak pomnik ze złota a nie żywa istota.


Po lewej obrazek wykonany w ramach edycji pierwotnego bazowego obrazka i tu jest konsekwencja choć znowu nie wszystko jest jak trzeba. Artefakt (twarz) w tym przypadku osadzony prawidłowo ale zdjęcie kończy się za wcześnie w ogóle nie widać spodni i butów jakby mu się skończył kontekst 🙂 Zdjęcie po prawej to też efekt edycji innej wersji Urnsta, ale znowu nie ogarnął i to bardziej, miecz w złej ręce, brak w ogóle kuli ognia ale zdarzały się wersje gdzie były dwie albo więcej, samo tło trudno zgadnąć że to antyczna biblioteka – raczej jakieś ruiny , popękane kolumny, a w opisie nic takiego nie było.


Ostatni obrazek to znowu konsekwentne dodanie kolejnych szczegółów i tu straszne już rozczarowanie, nie ma orków są ludzcy żołnierze, Urnst nie lewituje nie unosi się a skrzydła no cóż raczej demoniczne niż ogniste. Każda kolejna edycja i dodawanie kolejnych elementów to coraz większa rozsypka, konieczność trzymania się tego co już zostało wygenerowane to spory problem dla Groka bo brakuje mu przestrzeni kontekstowej na to co ma dodać. im dalej w las (kolejne iteracje) tym efekt bardziej koszmarny. Obok dla odmiany wersja z zwykłego czatowego wątku gdzie tez podjąłem próbę przebrnięcia przez te 3 etapy ale tam niebyło za grosz konsekwencji zresztą jak widać Urnst stracił wszystkie swoje pierwotne cechy ani to złoty elf ani czerwonych szat magicznych człowiek nie uświadczy 🙂 Grok ma potencjał ale brak mu najwyraźniej mocy obliczeniowej albo zwyczajnie zbyt mocno ograniczono mu kontekst. Podsumowując gdyby nie braki w możliwości kontekstowej mógłby liczyć może nawet na 6. ale obecnie skłaniam się ku 4 / 10 niestety sporo do poprawki, żeby tu stworzyć coś godnego uwagi trzeba się namęczyć i poświecić mnóstwo czasu a trzeba pamiętać że przecież LLM mają nam pomóc działać sprawniej i odzyskać czas.
Copilot od Microsoft
Copilot od Microsofta to niemal to samo co Chat GPT zreszta sami spójrzcie na to co wygenerował :
Początek zapowiadał się dobrze choć można by powiedzieć że bardzo znajomo :

Podobieństwo do chat GPT jest uderzające nie sądzicie i to nie bez powodu ale o tym przy następnym teście . Dalej niestety jest tylko gorzej. Przyjrzyjmy się kolejnemu obrazkowi – Tu niema nic z pierwotnej postaci. Dla Copilota każdy obrazek to zupełnie nowa historia najwyraźniej. Nawet w tym samym wątku, nawet kotwicząc je za pomocą imienia i wywoływania go. Efekt jest taki że jak opisujesz wygląd w jednym a w drugim ubiór to w efekcie wszystko czego nie opisujesz w danym prompcie to copilot sobie losuje jak mu pasuje.

Na koniec sam prompt batalistyczny i tu kolejna niespodzianka. Ktoś chyba poszalał z filtrami i wyskoczyło cos takiego :

No więc trudno oceniać coś czego się nie udało wygenerować wiec pozostaje uznać że Copilot poddał walkę przed walką. 0 / 10
Meta AI
Na koniec standardowo trochę dla zabawy bo to nie jest poważny generator. ograniczony tylko do jednego układu zdjęcia dedykowanemu facebookowi i tak: Na pewno na plus pewna konsekwencja ale podejście do promptów totalna swoboda zobaczcie sami:



W zasadzie tu od początku nic się nie zgadza siwe pasemko zdominowało kolor włosów i brody, broda wygląda jakby ją z 10 lat zapuszczał a miała być krótka bródka :). Drugi wariant z mieczem i kulą ognia i czerwonymi szatami tylko bez miecza kuli ognia i czerwonej szaty za to z czerwona pelerynką o której w ogóle mowy nie było. jedyne co się względnie udało to srebrne oczy 🙂 Ostatni obrazek wygląda dość komicznie przyznacie 🙂 to bardziej są nietoperze skrzydła w ognistym kolorze niż skrzydła płonące, ale może się czepiam. Urnst natomiast wygląda jakby miał dopalacze w butach fantazja Meta nie zna granic 😉 Żadnych kul ognia nikt nie ucieka i trudno stwierdzić właściwie kto to do nas plecami stoi ludzie orki czy inne stwory
Tak jak mówiłem za pierwszym razem wziąłem Meta AI trochę dla zabawy, dla humorystycznej nutki 🙂 I tak w tym kontekście sprawdza się świetnie co najmniej 7/10 może nawet 8 🙂 ale jako generator obrazów pod katem promptu sorry ale uczciwie mówiąc 2,5 / 10 w dużej mierze za konsekwencje w kontynuacji promptów pochodnych. Niestety nie za właściwą ich interpetacje i artefakty.
Podsumowanie
Na obecną chwilę faworyt jest tylko jeden Nano Banana od Gemini. Chat GPT długo był nr jeden ale obecnie Gemini 3 Pro to jest prawdziwy bardzo zauważalny skok od przeciętnych kwadratowych obrazków z poprzedniej wersji modelu w coś co naprawdę robi różnice. Jeśli reszta umiejętności tego LLM również zaliczyła taki przeskok to serio rozumiem ten Red Alert w Open AI. Co prawda dziś już się pojawiła nowa wersja Chat GPT 5.2 ale równicy w generatorze nie zauważyłem żadnej może pojawi się później, a moze ta rewolucja dotyczy tylko strony tekstowej. W każdym razie z miła chęcia pobawie się Gemini 3 Pro po świetach i zdam wam relacje.
Aktualizacja 21.12
Standardowo jak to zwykle z Open AI nie wytrzymali presji i zmiany pojawiają się co chwilę i dotyczą kolejnych aspektów chat GPT tym razem chodzi o Dall-E o ile lepiej byłoby wrzucić kompletne narzędzie gdy już jest gotowe 🙂 A tak znowu falstart no wale wreszcie coś się poprawiło 😉


I jak wam się podoba nowa wersja 😉 zdecydowanie lepszy efekt choć ogniste skrzydła troszkę jakby nie przystają do ciała ale tak z czystym sumieniem można podnieść ocenę do 9,5 /10 teraz to już jest konkurencja dla Gemini.
Zapowiedź
W najbliższym czasie pojawi się ciąg dalszy tym razem temat będzie świąteczny ale niech to będzie niespodzianka przynajmniej do 23 grudnia do godzimy 9:00

No responses yet