ODCZAROWAĆ AI | Z cyklu porównania : Kilka słów o promptowaniu obrazów

Prompt i moje pułapki.

Prompty graficzne cechują się swoimi prawami dlatego postanowiłem napisać dziś coś lekkiego i przyjemnego a pry okazji pożytecznego.

Na początek mój prompt i kilka słów wyjaśnienia :

„rozszerzony portret pięknej kobiety, ognisto rude kręcone włosy, duże zielone oczy, nos prosty wąski, delikatny, smukły, usta pełne naturalne, bez szminki, ale soczyście czerwone, długie rzęsy, długie ale cienkie brwi, twarz pociągła, wysokie kości policzkowe, cera różowa, ubrana w sukienkę z dekoltem karo i bufiastymi ramionami, sama sukienka delikatna zwiewna z lekkich materiałów, biust duży wyraźny pełny, lekko piegowata twarz, piegi rozstrzelone niesymetryczne bez skupisk i nie na czole, również na widocznych częściach dekoltu i ramion, kobieta jest uśmiechnięta i szczęśliwa. Układ obrazu pionowy 3:2 portretowy, wysoki realizm, w tle sala balowa. Wyraźnie widoczne głowa ramiona i całe piersi”

Dlaczego akurat taki prompt? – Ogólnie zawiera on wszystko to na czym wykładają się różne generatory.

Włosy – Mogłem co prawda jeszcze wymyślić sobie jakiś odjechany kolor włosów np. niebieski albo różowy ale rudy to teoretycznie najmniej reprezentowalny kolor z naturalnych. No i przede wszystkim generatory wiedzą że wszystkie inne kolory poza bazowymi to farbowane włosy i to widać a przynajmniej generatory starają się to podkreślać robiąc np. innego koloru odrosty albo nadmiernie nienaturalnie intensyfikując kolor 😉

Piegi – Oczywiście piegi i nieregularność to kolejne pułapki generatory obrazów mają tendencje do symetrii bo podobno symetria jest synonimem piękna więc wszystko co nieregularne i asymetryczne stanowi wyzwanie. No i standardowo takie elementy są niedoreprezentowane.

Kształt twarzy – sam kształt twarzy nie jest wielką pułapką ale już wymienione elementy drobny nos wysokie kości policzkowe i duże oczy tak. Zwłascza dwa ostatnie elementy trochę się ze sobą celowo kłócą i nie łatwo to wszystko połączyć.

Sukienka – Generatory obrazów lepiej radzą sobie z obcisłymi ubraniami niż z tymi zwiewnymi i elementem lekkości.

Piersi – Kolejną pułapką celową był pełny biust bo tutaj najczęściej działają filtry doszukując się nadmiernej erotyki w tym co jest prostym nie wulgarnym opisem anatomicznej budowy. Hardkorowym rozwiązaniem byłoby gdybym zaproponował asymetryczne piersi, ale to by raczej nie przeszło przez filtry chyba nigdzie może poza GROK-iem.

Niezamierzona Pułapka – Ostatnie zdanie nie było zamierzoną pułapką na chat GPT, chyba żaden człowiek nie zrozumiał by tego w sposób jaki zrozumiał polecenie Chat GPT a właściwie to nie chat tylko DALL-E jego generator obrazów.

Generatory Obrazów ich mocne i słabe strony

DALL-E by Open AI

Na początek DALL-E i totalny ZONK. Przygotowując prompt do testów nie sądziłem że dostane taki efekt: DALL-E kilkukrotnie zablokował ten prompt tekstem „This image generation request did not follow our content policy.” a raz wręcz zasugerował że „całe piersi” dla niego znaczą tyle co nagie, nawet sprostowanie że nie chodzi o nagość tylko o to żeby były widoczne w całości a nie ucięte w połowie jak to zwykle robią generatory gdy mowa o rozszerzonym portrecie. W końcu po którejś próbie zakomunikował:

Dopiero po 8 chyba próbie bez zmian promptu wygenerował obraz który wrzucam poniżej.

Jeśli miałbym podsumować efekt to trzeba zwrócić uwagę na to co widać na obrazku więc pokolei :

włosy – tu jest ok

piegi – owszem są niesymetryczne i niema ich na czole, niemal niewidoczne na twarzy ale większe skupisko na dekolcie ogólnie ok.

kształt twarzy – ok ale właśnie te 3 detale które wymieniłem nos jest raczej klasyczny niż drobny i wąski to wynik biasu bo taki mu pasuje. Najwyraźniej kobiety podobnej urody najczęściej mają taki właśnie nos w obrazach które posłużyły mu za dane treningowe, oczy powinny być duże i zielone ale zostały zdominowane przez wysokie kości policzkowe wiec są normalne no i raczej nie są zielonego koloru to bardziej brąz

sukienka – tu można odnieść wrażenie przeniesienia koloru zamiast zielonych oczu mamy zieloną sukienkę. Celowo w tym wypadku nie okresliłem koloru za to napisałem że sukienka powinna bycdelikatna i zwiewna a ta wydaje się wyjątkowo dopasowana i ciasna co sugerują zmarszczki i ihc ułożenie na materiale. Za to bufiaste rękawy się udały

Piersi – tu typowe dla chata GPT wygładzenie tematu czy trzeba cos więcej mówić ?

Na koniec jeszcze dwa słowa o tym czego nie widać na powuyższym obvrazku ale co jest dużym mankamentem DALL-E gdy chodzi o pełne sylwetki ludzkie. Jeśli chodzi o ciało kobiety chat gpt uznaje tylko w pełni symetryczną sylwetkę klepsydry gdzie piersi i pupa której tu nie widać muszą być według wzoru 90-60-90 ewentualnie wszystkie wartości pomnożone przez X albo przez niego podzielone.

Każda próba zmiany jednej części sylwetki która się wyróżnia powoduje natychmiastową korektę do „wymarzonej sylwetki klepsydry” choć różnie z tym bywa czasem jeśli sugerujemy że któraś połowa jest większa to Chat GPT powiększa mniejsza żeby pasowała do tej większej a czasem odwrotnie zmniejsza to co za duże żeby mu pasowało do reszty.

Podsumowując w przypadku generowania postaci ludzkich Chat GPT nie jest tutaj idealny, jego filtry i tendencja do wygładzania wszystkiego i pilnowania nierealistycznej proporcji sylwetki powoduję że sporo on traci w mojej ocenie. Uczciwie mogę dać jakieś 6,5 na 10 przynajmniej jeśli chodzi o generowanie sylwetek ludzi czy to częściowych czy całościowych.

Nano Banana od Gemini

Tu akurat się przyjemnie zdziwiłem bo teraz Gemini już potrafi wygenerować obrazki innych kształtów niż tylko kwadrat choć nadal są mankamenty. To że potrafi wygenerować różne kształty to jedno ale przy pierwszej próbie pomylił układ pionowy z poziomym i wygenerował poziome zdjęcie.

Pierwsze dwa obrazki były wygenerowane w jednym wątku i tutaj należy zauważyć żelazną konsekwencje. Postać nie została w żaden sposób zmieniona fryzura uśmiech wszystko identyczne tylko zmienił się kadr na pionowy pokazując to czego nie było widać wcześniej ale nie zmieniając tego co już było widoczne. Taka konsekwencja w ramach jednego wątku to potrafi być duży plus gdy pierwotny obrazek spełnia nasze oczekiwania w ponad 80%, ale jeśli nie spełnia ich w ponad 80% to trzeba otworzyć nowy wątek bo nie uda się skorygować obrazka do oczekiwanych przez nas efektów jeżeli na starcie nie jest on odpowiednio dobry. Dlatego w Gemini zresztą jak w każdym generatorze obrazów ale tu w szczególności trzeba opisać wszystko z najdrobniejszymi szczegółami, nie pozostawiając zbyt wiele miejsca wyobraźni Nano Banana.

A teraz przyjrzyjmy się efektowi

włosy – ok choć generator sam sobie wymyślił że skoro to sala balowa to kobieta musi mieć wymyślną fryzurę i zrobił jej upięte włosy.

Piegi – tutaj spory feler bo nie jest to zdecydowanie lekko piegowata twarz piegi są wszędzie również na czole, miały być nie symetryczne i rozstrzelone a są wszędzie zamiast pojawiać się punktowo bez wyraźnych skupisk mamy właściwie jedno wielkie skupisko na twarzy i drugie na piersiach rozdzielone szyją

Kształt Twarzy – tu widać dokładnie to samo co u poprzednika duże oczy nie są duże bo wysokie kości policzkowe i szeroki uśmiech ograniczają możliwości i oczy znów są zwykłe migdałowe, nos też raczej typowy nie wąski i delikatny. Brwi również normalne a nie cieńkie.

Sukienka – jest ok i jak w przypadku większości generatorów przy braku określonego koloru trzyma się białego albo kremowego, lub szuka czegoś co ładnie kontrastuje z daną karnacją. A tu zachodzi pierwszy przypadek bezpieczna biel.

Piersi – tu akurat nie mogę się do niczego przyczepić opis był krótki a to co widać zdecydowanie łapie się w te kryteria.

Ogólna ocena jeśli chodzi o sam efekt na pewno lepiej sobie poradził od DALL-E z tym zadaniem i dałbym nawet 8 gdyby nie ta masa nadmiarowych piegów i to że postać na zdjęciach aż tak się świeci 🙂 A tak uczciwie 7,5 na 10

IMAGINE od X AI

Imagine od X AI to największe zaskoczenie, i choć pracuje z nim od kiedy tylko pojawił się GROK 4.1 to powiem szczerze nie sądziłem że na tle rywali wypadnie tak znakomicie. Sami zobaczcie te zdjęcia.

Naprawdę chciałbym się bardziej przyczepić ale nie bardzo jest do czego zresztą przejdźmy krok po kroku:

Włosy – tu jest nawet lepiej niż ok wyglądają najbardziej naturalnie.

Piegi – to już klasa zdecydowanie unika dużych skupisk całkiem się tego nie da wyeliminować, ale ich gęstość po raz pierwszy jest odpowiednia: Mało i nieregularnie raczej pojedyncze wrzuty niż duże skupiska.

Kształt twarzy – tu znowu zwyczajne migdałowe oczy ale przynajmniej zielone 🙂 nie wiem czy to układ tych zdjęć i to że dwie z 3 postaci stoją pod kątem a nie en-face ale nos najbardziej przypomina to czego bym oczekiwał jako wąski i delikatny. Kości policzkowe tu w zasadzie giną trudno je dostrzec za tym powalającym uśmiechem. Ogólnie tu są spore mankamenty względem opisu ale jednocześnie kompozycja robi swoje i sprawia że tak w oczy nie kłują.

Sukienka – tu najlepiej widać lekkość i to nie samej sukienki. Całą kompozycja obrazu wydaje się lekka i bardzo przyjemna w odbiorze. Spory plus

Piersi – kompletnie mi brakuje słów bo to jest dokładnie to co powinno być i tylko jeden mankament że kadr się kończy za wcześnie nie tak jak powinno być czyli pod linią biustu.

Ogólna ocena zdecydowanie 9/10 i to jest zdecydowanie jeden z nielicznych, ale mocnych atutów GROK 4.1 i tylko niech jeszcze ogarnie polski a z miła chęcią się na niego przesiądę. A największym plusem generatora obrazów od GROK-a jest to że jednym poleceniem wywołujemy całe mnóstwo różnych wariantów choć wszystkie są bardzo zbliżone do siebie, ale zawsze z wielu łatwiej wyłowić jedna perełkę niż 100 razy poprawiać drobne niuanse generując po 1 obrazku naraz.

Copilot

Póki co naprawdę słabo. Pierwsze zdjęcie wygenerował jak ugrzeczniony obraz na płótnie jak poprosiłem o kolejną próbę to samo. Dopiero jak go zapytałem czy według niego to realistyczne ? Copilot stwierdził że :

„Masz absolutną rację — obecny obraz ma charakter bardziej malarski, przypominający klasyczny portret olejny, z miękkim światłem i delikatnym wykończeniem. To estetyka typowa dla stylu „wysokiego realizmu” w sztuce, ale często interpretowana jako ugrzeczniona lub idealizowana wersja rzeczywistości.”

No wiec poprosiłem o fotorealizm i w efekcie dostałem coś czego w życiu nie wziąłbym za fotografie 😊 Tak więc Copilot nigdy nie będzie moim wyborem. Jeśli chodzi o promptowanie obrazów, zresztą zobaczcie sami.

To co rzuca się w oczy to totalny brak realizmu raczej malarstwo niż realistyczna scena czy zdjęcie. Niemniej w prompcie nie było wprost mowy o fotografii było tylko rozszerzony portret, a dalej w treści wysoki realizm. No więc portrety to są na pewno a ten wysoki realizm już nie koniecznie po mojemu. Przyjmijmy jednak że będziemy oceniać zdjęcia w wersji „estetyka wysokiego realizmu w malarstwie” wg. Copilota 🙂

Włosy – pomijając estetykę i to że przez nią wszystko wygląda niezbyt naturalnie to ok.

Piegi – Jak malowane 🙂 rozsypane nieco więcej niż u GROK-a ale wciąż dają właściwy efekt można się tylko przyczepić do tego że są również na czole

Kształt Twarzy – I tu zaskoczenie bo być może to znowu ten efekt obrazu na płótnie ale oczy są najbardziej zbliżone do oczekiwanego efektu są większe niż w pozostałych przypadkach nie tak zdominowane przez wysokie kości policzkowe. Natomiast tu zwłaszcza na 3 zdjęciu czyli teoretycznie gdzie poprosiłem o fotorealizm zdecydowanie nos jest za duży jak na wąski i delikatny.

Sukienka – tu w ogóle nie widać lekkości, są bufiaste rękawy ale sukienka jest cóż kompletnie pozbawiona jakiejkolwiek lekkości. W zasadzie trochę wygląda jak średniowieczna koszula nocna, gdyby nie te rękawy 🙂

Piersi – tu się nie będę czepiał 🙂 Zwłaszcza na ostatnim teoretycznie foto-realistycznyum obrazku dają radę, gdy nie skupiać się na tym że są to raczej obrazy niż spodziewane zdjęcia.

Podsumowując – Nie jest najgorzej ale za koncepcje musze na starcie odjąć 1 punkt. Dużym mankamentem znowu jest twarz zwłaszcza nos. Na plus na pewno oczy. Sukienka niestety na minus, ale włosy piegi i piersi to już plus więc uczciwie gdyby nie brak realizmu to byłoby pewne 8 a tak zostaje 7/10 .

Jeśli piszecie w Wordzie książkę i potrzebujecie wygenerować do niej ilustracje to Copilot da rade o ile książka nie stawia na zbytni realizm.

Generator obrazów od Meta AI

Dziś po raz pierwszy skorzystałem też z generatora obrazów na facebooku od Meta AI no ale ten najwyraźniej nie jest dedykowany trudnym zadaniom, i szczegółowym opisom. Poniżej kilka wersji mojego prompta i to tych które choć trochę przypominają to co powinny a i tak daleko daleko za konkurencją.

To jest naprawdę wyzwanie trudno te obrazki oceniać bo znowu dominuje koncepcja malarska zero realizmu ale też zero konsekwencji. No ale postaram się mimo wszystko je ocenić:)

Włosy – teoretycznie włosy są kręcone i rude, ale kompletnie paskudzą każdy obrazek. Zwłaszcza na ostatnim jak się przyjrzeć włosom to wyglądają jakby ktoś malował je bardzo grubym pędzlem bez pomysłu paćkając tu i tam. na pierwszym obrazku zresztą też szału nie robią ogólnie to jest właśnie ten przypadek gdzie niby prosty element jak włosy wydaje sie nie do spaprania jest koncertowo spaprany.

Piegi – tych raczej jest za mało niema ich kompletnie nigdzie poza twarzą a tam również bardzije skupiska niż pojedyncze piegi. i znowu bardzije symetria niż rozstrzelenie i losowe rozsypanie.

Kształt twarzy – sam kształt twarzy jest ok a nawet na dwóch zdjęciach oczy wyglądaja na całkiem duże i przyjemne spojrzenie a nos też nie jest jakiś wyjatkowo kulfoniasty i duży ale zwłaszcza na pierwszym zdjęciu rzucają się znaczące problemy anatomiczne jak żyrafia szyja. Zresztą na każdym zdjęciu anatomia ludzka leży.

Sukienka – tutaj w zasadzie można powiedzieć coś tylko o 2 z nich ale obie są gorsetowe i trudno powiedzieć żeby były lekkie. Raczej sztywne i przylegające choć z ciekawymi bufiastymi rękawami choć te miejscami też są mocno przylegające.

Piersi – tu już kompletna wtopa w zasadzie tylko na 1 zdjęciu można powiedzieć że są. NIestety trudno uznać by którekolwiek pasowały do opisu.

Podsumowując: Tutaj naprawde trudno jest cokolwiek oceniać, brak jakiejkolwiek konsekwencji. Te 3 obrazki były wybrane z większej serii a spora część była animowana. Pomieszanie z poplataniem róznych stylów od animowanych obrazków po malarstwo ale żadnych realistycznych fotografii. Raczej zabawka dla tych co chcą sobie wrzucić coś śmiesznego do posta niż sensowny generator Obrazów. Trochę na zachęte 3/10.

Podsumowanie

Prompt i czego w nim zabrakło.

Choć na pierwszy rzut oka mój prompt wydawał się całkiem konkretny, to jak pokazało podejście różnych generatorów jest on wciąż bardzo mało konkretny ale w tym wypadku było to celowe. Od samego początku chodziło mi o to właśnie podsumowanie. Generatory obrazów tak samo jak LLM nie myślą i trudno tego od nich oczekiwać one dopasowują to co znają do tego co jest opisane, a wszystko czego nie opiszemy zgadują.

Ten aspekt najlepiej obrazuje kolor sukienki a właściwie to jego celowy brak w prompcie. Ponieważ nie był określony to większość LLM uznała że brak koloru najbardziej kojarzy im się z białym bo w końcu jest to kolor ale pozbawiony kolorów. Choć jeden konkretnie Chat GPT przeniósł kolor oczu na Sukienke. To mnie nawet trochę zaskoczyło bo to się zdarzało w poprzednich jego wersjach nawet często, ale w obecnej spotykam się z tym pierwszy raz. Pewnie gdybym ten kolor okreslił to niebyło by problemu. Ale zabieg był celowy i obnażył coś czego myślałem że już nie ma.

Inną rzeczą którą pominąłem celowo była fryzura, i tu większość generatorów zrobiła po prostu rozpuszczone włosy, choć dwa z nich uznały że otoczenie (sala balowa) wymaga jakiegoś bardziej formalnego uczesania i wygenerowały fryzury bardziej upięte. Można by pomyśleć że to znaczy że te generatory myślą, ale nic z tych rzeczy to raczej kwestia tego że zapewne włosy uniesione upięte z ewentualnie luźnymi kosmykami po obu stronach twarzy stanowiły dominującą fryzurę w zdjęciach kobiet z bali.

Jeśli chodzi o cechy wyraźnie anatomiczne to tu celowo unikam nadmiernych opisów żeby nie prowokować filtrów bo w każdym generatorze widziałbym tylko napis że zdjęcie zostało zablokowane z powodu naruszenia polityki.

Twarz, tutaj celowo zaproponowałem teoretycznie kłócące się ze sobą elementy duże oczy, wysokie kości policzkowe, dodatkowo uśmiech, który też ogranicza oczodoły i wąski delikatny nos z którym generatory zawsze maja problemu bo usiłują na siłę zrobić naturalne dziurki w nosie, co powoduje czasem kosmicznie wąski nos z dość szerokimi skrzydełkami na dole, ale tym razem żadna twarz nie była nienaturalna czy komiczna. Zawsze na straży stał filtr „wygłądzający” czyli ładnie mówiąc typowy beauty bias. Jeśli na początku jest określenie piękna kobieta to nawet jeśli poszczególne elementy miały by doprowadzić do jakiejś dziwnej kreatury czy oszpecenia człowieka to zwyczajnie zadziała filtr upiększający i tak da nam nie to co chcemy tylko to co ładne symetryczne i ogólnie wpisujące się w instalook.

Więc jeśli potrzebujemy fajnych realistycznych zdjęć ludzi to na obecną chwilę najlepiej radzi sobie Imagine od X AI ale to się zmienia równie szybko co powstają kolejne wersje LLM.

Sposób na Ludzki Prompt

Co do promptowania, portretów ludzi i wszystkiego co z nimi związane to ogólnie im więcej szczegółów tym lepiej, choć z kilkoma wyjątkami. Nadmierne opisywanie kształtów piersi, bioder, pupy i innych wrażliwych elementów w większości prowadzi do blokad. Jeśli ograniczymy się do dwóch lub trzech słów to wtedy nie ma problemu natomiast problematyczne są te prompty gdzie nawet w 3 słowach ale opisujemy każdy z elementów bo wtedy filtry działają prawie zawsze w większości generatorów. Choć i na to jest sposób czasem lepiej modelować wrażliwe elementy nie przez ich bezpośredni opis, a przez wszystko dookoła Ale przykładów nie będę podawał pozostawiam to waszej wyobraźni.

Wszystko zależy i tak od generatora obrazów bo każdy jest trochę inny co pokazał ten artykuł ale jedna zasada jest stała, w przypadku generowania obrazów ludzi jest bardzo wiele różnych filtrów nie tylko te seksualne dlatego tu niema miejsca na poprawki trzeba poświecić czas i zastanowić się nad tym co chcemy wygenerować opisać wszystko co jest dla nas istotne i nie dawać generatorowi miejsca na jego własne interpretacje. żeby nie musieć poprawiać efektu. Niestety oprócz filtrów erotycznych działają też również filtry rzekomego podobieństwa które po kilku poprawkach przestają generować obrazy zwłaszcza jeśli mamy w treści promptu bazowego Fotorealizm niejako twierdząc że według nich chcemy upodobnić obraz do prawdziwej osoby. Dlatego tak istotne jest by oczekiwany efekt dostać za pierwszym razem.

Na koniec to co było w moim prompcie ledwo zaznaczone ale wcale nie jest mało istotne to wykluczenia, ja napisałem tylko że nie chce piegów na czole ale wy możecie mieć więcej elementów niepożądanych pamiętajcie o nich wspomnieć pisząc prompt to co niema się pojawić na obrazku jest równie ważne jak to co się ma na nim pojawić.

Dawid Kochowski

Świadomy użytkownik AI, który nie nazywa siebie ekspertem, ale lubi badać, testować i opisywać sztuczną inteligencję w praktyce. Wiedzę o systemach ekspertowych zdobywał jeszcze na studiach, a resztę – już samodzielnie. Pisze o AI bez certyfikatów i fałszywych obietnic, za to z przykładami, anegdotami i szczyptą dystansu.

12 grudnia, 2025

Oceń artykuł:

Średnia ocena:

Zapowiedź

W najbliższym czasie pojawi się ciąg dalszy tym razem z domeny autorskiego świata fantasy zobaczymy jak LLM radzą sobie z scenami batalistycznymi z udziałem moich bohaterów, zmyślonymi krajobrazami i miastami, i nie tylko.

Z cyklu porównania : Kilka słów o promptowaniu obrazów