Um Shakespeare zu zitieren: „Much ado about nothing …“ Google hat letzte Woche eine neue Version seines Bildgenerierungsmodells GEMINI Flash Image in der Version 3 veröffentlicht. Da sich mittlerweile der interne Codename „Nano Banana“ auch nach außen hin werbewirksam durchgesetzt hat, bleiben wir gleich bei dem Namen.
Nano Banana 2 ist da! Und der Hype auf den KI-Portalen und bei Youtubern, die sich mit KI beschäftigen, scheint regelrecht zu explodieren. Doch ich bin eher verhalten und tatsächlich unzufrieden.
Fangen wir grundlegend damit an, wofür ich Bildgenerierungstools nutze. Zum einen, um Szenen beim Schreiben oder Gegenstände zu visualisieren und Posts auf sozialen Netzwerken visuell zu untermalen. Darüber hinaus erstelle ich mir Charakterporträts für meine Protagonisten, um immer ein Gesicht vor Augen zu haben. Früher habe ich mir dazu Fotos von Schauspielern gesucht, die ich aber aus rechtlichen Gründen nie öffentlich zeigen durfte. So kommt mir eine schnelle Generierung eines Charakters sehr gelegen.
Ich habe auch die Covervorschläge zuletzt mit Bildgenerierungstools erstellt, statt sie mühsam und umständlich in Photoshop zu visualisieren. Und für die Romane, die ich selbst veröffentliche, verwende ich ich ebenso (auch wenn die Montage mit Titel, Logo und Autorenname weiterhin in Photoshop erfolgt.
Schauen wir uns die winzige Banane also mal an.
Google hat parallel an zwei Bildmodellen gearbeitet. Imagen und Flash Image. Ersteres entwickelte sich so lala und zeigte Ergebnisse, bei denen man immer den künstlichen Touch sah. Inzwischen müsste es bei Version 4 angelangt sein, aber eigentlich redet niemand darüber. Mitte 2025 erblickte dann Gemini 2.5 Flash Image das Licht der Welt und wurde zu einem Game Changer, denn es hat gegenüber Modellen wie Stable Diffusion, Flux, Qwen & Co. einen Fotorealismus an den Tag gelegt, der beinahe schon von echten Fotos nicht mehr zu unterscheiden war. Doch damit nicht genug, denn Ende November letzten Jahres legte Google mit Gemini 3 Pro Image nach – hier wurde dann auch gleich der Codename offiziell und das Modell in Nano Banana Pro umbenannt. Mehr Realismus und konsistente Charaktere, indem man Referenzfotos vorgab.
Zwar behaupten viele, Sora Image 1.5 von OpenAI hätte Google den Rang abgelaufen, aber das halte ich für Quatsch. Die Ergebnisse, die ich mit Sora 1.5 getestet habe, ware deutlich, deutlich schlechter als alles, was Nano Banana Pro zustande brachte.
Nun sprechen wir also über Nano Banana 2 – ohne Pro. Denn Nano Banana 2 basiert auf Gemini 3 Flash Image und nicht auf Gemini 3 Pro Image.
Was kann es dann, bzw. was soll es können? Schauen wir uns das Ganze doch einmal auf der nachstehenden Infografik an, die ich für euch erstellt ha … pardon, erstellen lassen habe:

Demnach soll Nano Bana 2 komplexe Prompts durch seine verbesserte Intelligenz verstehen und die Bilder in einer Wahnsinnsgeschwindigkeit generieren. Leider bleiben dadurch Ästhetik und Logikdetails auf der Strecke. Das berühmte randvolle Glas Wein, das bisher nur Nano Banana Pro erstellen konnte, wird auch von Nano Banana 2 geflissentlich ignoriert.
Nano Banana 2 ist also kein Heilsbringer, sondern eine verbesserte Version von seinem ursprünglichen Modell. Leider lässt Google dem Anwender nicht viel Auswahl, denn grundsätzlich werden jetzt alle Bilder in Gemini mit Nano Banana 2 generiert. Nur Nutzer eines Abomodells dürfen das Ergebnis noch einmal mit Nano Banana Pro generieren lassen – anschließend versteht sich.
Allerdings habe ich das Gefühl, dass die Bildgenerierung auch deutlich nachgelassen hat, gerade was den Fotorealismus anbelangt. Hier bringe ich gerne noch einmal ein Zitat an, dieses Mal von H.M. Murdock aus The A-Team: „Look, B.A., what you have done was real, but in film, what we need is, which looks real.“ Das Ganze müsst ihr euch mit einem francohispanischen Akzent vorgetragen vorstellen. Was ich damit sagen will: Sobald das Wort „Fotorealismus“ in einem Bildprompt auftaucht, denkt ein Mensch: Ich will ein Foto haben, in der Regel erstellt die Bild-KI aber etwas „foto ähnliches“ und damit eindeutig als Nichtfoto zu erkennen. Und hier scheint Nano Banana gelitten zu haben.
Den nachstehenden Prompt habe ich heute Morgen bei der Erstellung eines Porträtfotos der fiktiven britischen Verteidigungsministerin Henrietta Zaleski aus meinem aktuellen Roman „Hades-Faktor“, in Gemini eingegeben.

Trotz 2K-Auflösung zu unsauber modelliert. Hier braucht man nicht mal genau hinzugucken, da reicht ein flüchtiger Blick, um zu erkennen, dass die abgebildete Frau nicht echt ist, sondern wie „gemalt“ wirkt, also eher das ist, was man unter Digital Art versteht. Fotorealismus tauchte in dem Prompt nicht auf, sondern Photography, best quality und highest details.
Ich habe das Bild anschließend mit Nano Banana Pro nachgeneriert. Der Prompt ist derselbe geblieben.

Tatsächlich wirkt die Frau hier noch günstlicher, noch gemalter, als bei der vorherigen Version. Und das war in den vergangenen zwei Monaten schon deutlich besser. Als hätte Google etwas an den Einstellungen geschraubt und die Erzeugung von „künstlich echten Fotos“ heruntergeschraubt oder im Hintergrund „Imagen 3“ laufen lassen.
Schauen wir uns die Konkurrenz aus China an. Momentan gibt es noch keine Veröffentlichung von Seedream 2.0 und die Lite-Version eignet sich nicht für Fotos, sondern legt mehr Wert auf den künstlerischen Aspekt, aber der Vorgänger Seedream 1.5 liefert hier deutlich besser ab:

Der Prompt ist derselbe wie bei den beiden Nano Banana Modellen. Die Auflösung liegt bei 4K, wenn man ranzoomt erkennt man fantastische Details. Zwar wird das geübte Auge (auch mit dem Wissen, dass es so ist) erkennen, dass dies kein echtes Foto ist, aber es wird schon etwas schwieriger. Zudem kriegt man es mit etwas Finetuning noch besser hin. Das Bild ist jetzt nur ein einziger Wurf ohne Presets gewesen, um ein Foto von Secretary of Department for Defence zu haben, und nicht, um jemanden Echtheit vorzugaukeln.
Wie seht ihr das? Ist Nano Banana 2 das, was euch im Internet versprochen wird oder war es vorher besser oder genauso gut?
