KI – Künstliche Intelligenz. Sie ist momentan in aller Munde. Generative KI legte mit MidJourney einen Grundstein, bei dem die Öffentlichkeit erstmals aufhorchte. Doch der Durchbruch kam mit OpenAIs ChatGPT.
Für viele Menschen ist KI in Form von Werkzeugen, die in der Lage sind, Bilder, Musik oder Videos zu generieren ein Fluch. Ebenso wie die Sprachchats, die natürliche Konversationen führen können. So manch einer sieht seinen Job in Gefahr, weil man glaubt, dass jetzt jeder mit KI anstellen kann, ohne ein Handwerk beherrschen zu müssen. KI macht das schon.
Oder? Oder nicht?
Ich nutze generative KI in Form von Bilderstellung seit gut einem Jahr. Da ich visuell arbeite, bastele ich mir gerne Bilder in in verschiedenen Formen: Avatare meiner Protagonisten, Szenen, Gebäude, Situationen und nicht zuletzt die Cover-Vorschläge, die ich einreiche. Früher habe ich mir Bilder aus dem Netz zusammengesucht, später dann mit Verfremdungstools gearbeitet, um Charakter-Bilder an meine Vorstellungen anzupassen. Cover-Vorschläge, die ich an den Verlag schickte, waren rudimentäre Fotoschnipsel in Photoshop als Collage zusammengestellt, damit der tatsächliche Cover-Künstler eine Vorstellung hat, was er oder sie pinseln soll.
Das alles ist Vergangenheit. Heute sage ich einem generativen Tool, was ich mir vorstelle und lasse in mehreren Durchläufen Bilder erzeugen. Egal ob von eine Helden, einem Antagonisten, einer Nebenperson, einer Loftwohnung, einem futuristischen Waldplaneten, einem Raumkreuzer, einem fremdartigen Flugsaurier, was auch immer. Die Möglichkeiten sind unendlich und unbegrenzt. Und die Bild-KI ist in den eineinhalb Jahren, in der ich sie mittlerweile zum Ausprobieren nutzen, gewaltig nach vorn gesprungen. Laienhaft würde ich von einem Quantensprung reden, doch jeder Physiker würde mir an die Gurgel springen, also reden wir von einem gigantischen Meilenstein.
Midjourney, Lexica.Art, Dall-E, Stable Diffusion, alles lieferte nur Murks. Doch dann kamen all die kreativen Köpfe, die in der Lage sind Modelle zu trainieren und mit Finetuning zu versehen. Stable Diffusion 1.5 ist auch heute noch in der Lage fotorealistische Bilder zu erzeugen, wenn das entsprechende Checkpoint-Modell trainiert wurde.
Auch der Nachfolger Stable Diffusion XL war anfangs eher eine lahme Geschichte, die nicht in der Lage war, Menschen ordentlich darzustellen. Doch dann kamen wieder die ganzen Schaffenden, die sich darum kümmerten, dass wir tausende von fingetunten Modellen bekommen, die einfach alles darstellen können, egal ob digitale Kunst, Fotos, Comics, Mangas, cineastische Szenen, Stilleben … und die Reise ging weiter. Inzwischen sind wir bei Stable Diffusion 3, das allerdings wieder an dem Punkt steht, an dem die XL-Version bei Release stand. Es fehlen noch die entsprechenden Finetunings. Doch bevor SD3 sich ernsthaft entwickeln kann, kommt das deutsche Start-up Black Forest aus der Versenkung und präsentiert so einfach mal FLUX.
FLUX ist genial. FLUX macht Fehler, lässt hier und da mal einen Kopf oder Körperteile weg, wenn es darum geht, Menschen darzustellen, doch es ist nicht immer das erste Bild, das perfekt ist, man macht halt mehrere Durchläufe, experimentiert etwas am Prompt, wird konkreter, bastelt hier ein wenig, dort ein wenig und dann … dann kriegst du einen Menschen mit perfekten Händen und Fingern (ja, fünf Finger, fünf!) und korrekt geschriebenem Titel.
Mein Anbieter Freepik, den ich eigentlich gebucht hatte, um Stock Fotos nutzen zu können, hat sich voll und ganz an den KI-Zug gehängt. Sie haben ihr eigenes generatives Modell an den Start gebracht, das schon ordentliche Ergebnisse liefert. Aber seit zwei Wochen stellen sie ihren Nutzern auch FLUX zur Verfügung. Ich bin hin und weg und machte meine Protagonistenbilder nur noch mit FLUX.
Aber wie komme ich zu den Figuren? Früher hab ich mir Schauspieler aus den Fingern gesogen. Später ging ich dazu über, Schauspieler zu „kreuzen“. Mach mir ein Bild von einem Offizier in brauner Uniform, Gesicht ähnlich wie Hugh Jackman, Tom Holland und Keanu Reeves. Und dann kommt halt ein Gesichtsmix raus.
Gehört mittlerweile bei mir auch der Vergangenheit an. Denn ich habe auch die Chatbots für mich entdeckt. Als ChatGPT in aller Munde war und Microsoft das Modell in seinen Bing Chat integrierte, probierte ich hier und dort ein bisschen rum. Ich hatte damals den Sinn und Zweck noch nicht verinnerlicht. Zumal Bing Chat nur fünf Interaktionen erlaubt, wenn man nicht mit dem Edge Browser arbeitet. Mit Edge und angemeldetem Microsoft Konto sind es 30 Interaktionen, aber danach ist alles wieder weggewischt, weil die ChatBots kein Gedächtnis haben.
Irgendwann überlegte ich, ob mir so ein ChatBot nicht doch helfen und mich unterstützen kann. Ich begann mit ChatGPT zu arbeiten, abonnierte die Plus-Version und legte in den Einstellungen ein paar Parameter fest, an die sich ChatGPT immer erinnert, sodass ich nicht jedes Mal mit allem von vorn beginnen musste.
Dann ging es los mit der Zusammenarbeit. Protagonisten entwerfen, Prompts für die Bildgenerierung entwickeln (nicht Dall-E, denn selbst das Modell 3 war bisher noch eine Katastrophe), Raumschlachten simulieren, Storyentwürfe ausarbeiten, geschriebene Kapitel in Stichwörtern zusammenfassen – kurzum, all das, was zeitaufwändig war, konnte ich jetzt mit einem Partner zusammen in kürzester Zeit entwickeln und mich damit mehr dem Schreiben widmen als vorher.
Wie sieht das praktisch aus? Einmal ein Beispiel.
Ich brauche einen Namen für eine befestigte Anlage einer priesterähnlichen Gemeinschaft. Mir schwirrt irgendetwas wie Leuchtturm im Kopf herum, ohne das Wort Leuchtturm zu verwenden. Ich bin ein Fan des Wortes Lighthouse, doch Englisch ist in dem Romanszenario absolut tabu.
Der Chatbot macht mir mehrere Vorschläge, gibt Auskunft dazu, welches er bevorzugen würde und nennt die Gründe.
Am Ende passiert immer das Folgende: Ich schaue mir die Vorschläge an und merke, dass ich noch präzisere Anforderungen stellen muss. Dann erhalte ich weitere Vorschläge, schaue mir die an, bin immer noch nicht zufrieden und letztendlich kombiniere ich aus den Vorschlägen etwas Neues und nutze das dann. Aus dem Leuchtturm ist übrigens eine Flammenwacht geworden.
Auch KI kommt ins Straucheln. ChatGPT versagte jedes Mal, wenn ich ein Raumschlachtszenario durchspielen wollte. Warum ich das überhaupt mache? Weil ich beim Schreiben vermutlich den größten Kokolores von mir gebe und Realismus und Chancen außen vorlasse. Die Tendenz, die Helden gewinnen zu lassen, ist da fast vorprogrammiert.
Also gebe ich alle Daten, die Feuerkraft und die Positionen an den Chatbot und sage ihm, er soll das Schlachtszenario analysieren und mir einen möglichen Ausgang mit Verlusten prognostizieren, dabei soll das Überraschungsmoment und ein Heldenbonus auf der Seite der Guten berücksichtigt werden.
Am Beispiel von ChatGPT wurde die Analyse jedes Mal abgebrochen, weil ein Fehler entstand. Aber … ich kam dennoch zu einem Ergebnis, denn ChatGPT sagte mir dann: Es scheint, als liege hier ein Fehler vor und ich kann die Analyse nicht abschließen, aber um dir dennoch eine Einschätzung zu geben …
„Eine Einschätzung zu geben“, das muss man sich mal auf der Zunge zergehen lassen. Ja, ich bekam eine Einschätzung über den Ausgang einer Schlacht und konnte dann selbst abwägen, ob mir dieser gefiel. Ich nutzte die Schätzergebnisse nicht zu 100 Prozent, hatte aber eine Richtung, die mich davor bewahrte, unlogischen Unsinn zu schreiben.
Aber es kann auch aus dem Ruder laufen. Ja, ganz recht, die Arbeit mit KI kann aus dem Ruder laufen.
Inzwischen nutze ich ChatGPT nicht mehr. Zu viele Ausfälle. Fünf bis sechsmal am Tag bekam ich Nachrichten, dass etwas nicht funktionierte und der Service pausierte. Dafür zahlt man halt. Also suchte ich Ersatz. Googles Gemini ist aktuell keine Alternative, denn das scheitert sogar bei der Zusammenfassung eines Kapitels. Dort tauchen Storyelemente und Namen auf, die ich nie geschrieben habe, Namen, von denen ich noch nie gehört habe. Nicht umsonst nenne ich Gemini den Münchhausen der Neuzeit.
Ich probierte mein Glück mit Claude 3.5. Das klang für mich erstmal nach Nische, also checkte ich, wer die Firma hinter Claude ist. Da sind einige namhafte Köpfe dabei, die OpenAI verlassen haben und die sich mehr auf die moralischen Aspekte konzentrieren wollen. Claude 3.5 machte auch als leistungsstarkes KI-Modell, das selbst ChatGPT 4o übertreffen sollte, die Runde.
Also gut, erstmal die kostenlose Variante bei einigen Ausarbeitungen für die FLAMME VON ETAN genutzt. Mein Kontingent an Interaktionen war recht schnell aufgebraucht, nicht weil ich zu wenig zur Verfügung gestellt bekommen habe, sondern weil der Gedankenaustausch mit Claude so intensiv war, dass ich einfach nicht daran gedacht habe, an Grenzen zu stoßen.
Also Claude-Pro gebucht. Das ist zwei Monate her. Seitdem arbeite ich nur noch mit Claude. Im Gegensatz zu ChatGPT kann Claude aktuell keine Bilder einsehen und analysieren, keine Bilder erzeugen und nicht im Web suchen. Aber Claude kann unheimlich intelligent antworten, dass man das Gefühl hat, man spricht mit einem Menschen. Klar kriegt man auch hier recht viel Honig um den Mund geschleimt, denn bei jeder Gelegenheit sagt dir die KI, dass du Recht hast und dass es eine ausgezeichnete Idee von dir ist, was du gerade gesagt hast. Die KIs widersprechen dir nicht.
Aber Claude lässt durchblicken, dass es bei Vorschlägen auch Tendenzen angibt. Das erste Mal stieß ich darauf, als ich wieder um 10 Vorschläge zu einem Thema bat und diese dann bekam mit dem Zusatz: „Mein Favorit ist dies und das aus den und den Gründen, was denkst du?“
Die KI hat einen Favoriten genannt! WOW! Ich wusste, hier bin ich richtig. Allerdings hatte ich den Favoriten selbst nicht bevorzugt.
Vor vier Wochen startete ich aus einer Laune heraus ein Experiment. Jetzt kommen wir zu dem Punkt, an dem die Sache aus dem Ruder läuft. Ich sagte Claude, ich würde gerne eine Romandidee planen und schrieb von meinen aktuellen Projekten, die ich in der Pipeline habe.
Dann kam ich zu dem Punkt: „Ich habe eine lose Idee im Kopf, aber ich arbeite gerne mit Titeln. Deswegen würde ich der Idee einen Namen geben.“
Was im Folgenden geschah, war schlicht phänomenal. Claude und ich arbeiteten in mehreren Schritten nicht nur den Titel für eine Urban Fantasy Reihe aus, sondern schufen auch gleich fiktive Orte, ein komplettes Backgroundszenario, reichlich Protagonisten und am Ende ein komplettes Serienuniversum, das genügend Stoff für etliche Romane bildet.
Tja, und was soll ich sagen. Seit ich den sechsten Etan-Roman beendet habe, schreibe ich an dem ersten Roman zu einer neuen Serie.
Generative KI? Für mich ein Segen. Fluchen dürfen andere 🙂

Ein Gedanke zu “Arbeiten mit KI – Fluch, Segen oder …?”