„Ich lag falsch, was Google Gemini betrifft!“

Heute mal einen Clickbaittitel. Warum auch nicht? 🙂

Vor exakt einem Jahr, brachte ich den Artikel „Die dümmste KI der Welt wohnt in Mountain View“ – inzwischen hat sich in Mountain View einiges getan, gerade, was die damaligen Schwierigkeiten betraf, die ich mit Google Gemini hatte.

Ende letzten Jahres hat Google tief in die Trickkiste gegriffen und nicht nur sein Sprach-, sondern auch sein Bild- und Videogenerierungsmodell auf den neuesten Stand der aktuellen Technologie gebracht:

Gemini 2.5 Flash hatte zuvor schon das Modell, über das ich noch im Januar 2025 meckerte, abgelöst, aber ich arbeitete weiterhin hauptsächlich mit Claude.ai an meinen Projekten und mit Perplexity.ai als Suchmaschine. ChatGPT rückte in den Hintergrund. Das lag zum einen daran, dass ich dort keine Projekte angelegt hatte, sondern immer nur im Hauptfenster sprach, und durch mangelnde Spezialisierung wurden die Antworten ungenauer und unbrauchbarer.

Im November geschahen dann zwei Dinge: Einerseits funktionierten in meinem Claude-Konto die sogenannten Artifacts nicht mehr. Das sind Code-Snippets, die Claude erstellen kann, um etwas zu visualisieren oder als Markdown zu speichern. Ich nutzte es hauptsächlich dazu, um Kapitel meiner Manuskripte zusammenzufassen. Der Vorteil war, dass ich ein Artifact direkt mit einem Button zu den Projekten hinzufügen konnte. Wenn Claude innerhalb des Chats eine Zusammenfassung machte, musste ich diese erst kopieren und dann einen neuen Eintrag in dem Projektwissen erstellen. Aber es funktionierte gar nichts mehr: Ich konnte keine Hilfsprogramme schreiben lassen, keine Vektorvisualisierungen machen, keine Webseiten gestalten, gar nichts. Artifacts öffneten sich einfach nicht mehr, egal welchen Browser ich benutzt habe. Laut Reddit bin ich wohl nicht der Einzige, auch wenn Anthropic behauptet, es funktioniere alles.

Gleichzeitig brachte Google das Update auf Gemini 3 Flash und auf Gemini 3 Pro heraus. Das war mir dann mal einen Blick wert und ich stellte einige Anfragen, die mit Bravour beantwortet wurden. Allerdings hat Google bisher keine Projekte bereitgestellt, das heißt, es herrscht ein absolutes Chatchaos, denn inzwischen ist der Google Assistant nicht nur auf Smartphones, sondern auch in Android Auto durch Gemini abgelöst. Das heißt: Jede Anfrage nach dem Wetterbericht, einen Timer zu stellen, den Wecker auszuschalten, die Navigation nach hierhin und dorthin zu starten, hinterlässt einen Eintrag im Chatverlauf.

Statt Projekten bietet Google an, Gems zu erstellen. Das sind spezialisierte Module mit Anweisungen, vergleichbar mit den Projekten bei Claude und ChatGPT oder den Spaces bei Perplexity. Der Haken allerdings: Während bei bei den anderen Anbietern alle seine Chats wiederfindet, werden im Gem-Bereich nur die letzten drei angezeigt.

Um einen Chat wiederzufinden, muss man ihn also entweder anpinnen, eindeutig benennen oder auf die Suche vertrauen.

Dafür funktioniert der Canva-Bereich, das ist der separate Bereich, in dem sichtbare Codezeilen ausgeführt werden, wenn man sich etwa ein kleines Tool coden lässt, wie beispielsweise einen Zufallsnamengenerator mit Favoritenspeicherung.

Schwierig ist hingegen die Frage: Wann benutze ich welchen Modus innerhalb eines Chats?

Bei Claude habe ich ausschließlich mit den Sonnet-Modellen gearbeitet. Bei ChatGPT ebenfalls. Die Hinweise auf die leistungsstärkeren Modelle, jene für mathematische Aufgaben oder für das Coden von Programmen zu wählen, haben mich jeweils davon abgehalten. Zumal gerade bei Claude das Tages- und Wochenlimit nach intensivem Gebrauch schon recht schnell erschöpft war.

Nun, hinzu kam, dass Google nicht mehr auf das Bilderzeugungsmodell Imagen 3 und 4 setzte, sondern mit Gemini 2.5 Flash Image, das unter dem Arbeitsnamen Nano Banana bekannt wurde, ein leistungsstarkes Modell raushaute, das die Bilderzeugung von ChatGPT (Sora) in den Schatten stellte.

Mit dem neuen Modell Gemini 3 Pro gab es dann auch das Update auf Gemini 3 Pro Image, das nun endgültig zum Modell Nanon Banana Pro wurde.

Mit Veo 3 und 3.1 schuf man einen Videogenerator, der dem von Open.Ai ebenfalls in nichts nachstand und mit Audioausgabe sogar deutlich bessere Ergebnisse lieferte. Da hält auch Sora 2 nicht mit.

Nun, was macht man nun damit, wenn man die gesamte Dokumentation bei Claude.ai liegen hat? Alle Ausarbeitungen, alle Kapitelzusammenfassungen und man sie nicht in Projekten bei Gemini bündeln kann?

Auf den Game Changer warten! Und der ist direkt Anfang Januar gekommen.

Google hat ein unglaublich mächtiges Tool namens NotebookLM, das viele nicht auf dem Schirm haben. Viele, die darüber stolpern, versuchen, es wie einen normalen Chatbot zu nutzen, doch das ist falsch, und so verlieren die Leute das Interesse daran wieder.

NotebookLM ist zunächst eine Datenbank, die man selbst mit Inhalt füttert. Man selbst gibt Quellen an, entweder lädt man Dokumente hoch oder verweist auf Weblinks oder gar Youtube-Videos. Die Quellen sollten einem einzigen Zweck dienen und nicht durcheinandergeworfen werden. Deshalb habe ich beispielsweise zu jeder Romanserie, an der ich arbeite, ein eigenes Notebook angelegt. Darin finden sich als Quellen dann die Plots, Hintergrundinformationen, Glossare, Lexika, Charakterblätter, Kapitelzusammenfassungen und ja, tatsächlich auch komplette Manuskripte.

Ich muss wissen, was Agent XY noch einmal in seiner Botschaft gesagt hat. Den exakten Wortlaut? Ich will wissen, welcher Schiffstyp die PFS HANNIBAL noch einmal war. War es ein leichter Kreuzer oder ein schwerer?

Kein Problem: Genau diese Fragen kann ich in den Chat stellen, NotebookLM durchsucht alle Quellen und gibt mir dann das aus, was ich wissen will. Dadurch entstehen auch keine Halluzinationen, da NotebookLM nur die ausgewählten Quellen bedient und nichts hinzudichtet.

Es gibt noch einige Tools, die einem das Ganze noch schmackhaft machen. Basierend auf den Quellen lassen sich ein Audiopodcast, eine Präsentation, ein Video, eine Infografik und – mein Highlight – eine Mindmap erstellen. Dabei werden alle Dinge schön miteinander verknüpft. Gerade im Bereich Romanplanung kann ich die Zusammenhänge zwischen Personen und Organisationen dann direkt auf einen Blick sehen. Perfekt.

Aber es wird noch besser:

Nun haben wir Gemini 3 mit den Modi Fast, Thinking und Pro zum Brainstormen, Gedanken sortieren, Planen, Szenarien durchgehen, Rechtschreib- und Grammatikhilfe einerseits und NotebookLM als Wissensdatenbank andererseits.

Und was macht Google? Es macht NotebookLM in Gemini verfügbar!

Das heißt, das Gem, das ich für die explizite Kommunikation als Sparringspartner für die Serie SIN Legion gebaut habe, hat direkten Zugriff auf das Notebook SIN Legion. Auf die bisher geschriebenen Manuskripte, auf das aktuelle Livemanuskript, auf das Glossar und Techniklexikon, auf alle Charaktere und Ideen.

Und das, liebe Freunde, ist der Game Changer. Das vereinfacht extrem vieles und verhindert mühseliges Suchen oder Erklären. Alles an einem Ort mit direktem Zugriff, besser geht es jetzt kaum noch.

Tja, und das, nachdem ich in Googles Gemini über ein Jahr lang den Münchhausen und Pinocchio unter LLMs gesehen habe. Die Einwände waren damals berechtigt. Falschauskünfte und Halluzinieren par excellence, doch Google scheint hier echt die Kurve gekriegt zu haben.

Demnächst werde ich einmal einen Werkstattbericht nachreichen, in dem ich euch zeige, warum und wofür ich KI überhaupt benutze. Es ist nicht so schlimm, wie es für manche klingen mag, und deutlich vorteilhafter, als viele glauben.