Update: Der Heilige Gral hat Risse – Wo die Gemini-Notebook-Integration scheitert

Verflucht! Du denkst, du hast die „Eier legende Wollmilchsau“ gefunden und bist absolut hyped, nur um dann festzustellen, dass es doch einige Tücken und Hürden gibt, die man erst schmerzhaft selbst erfahren muss.

War ich im letzten Post noch euphorisch, den Heiligen Gral des Workflows gefunden zu haben, muss ich heute etwas zurückrudern.

Die angesprochene Verknüpfung von Google Gemini mit NotebookLM ist zwar ein Segen, um Gemini das Wissen mit auf den Weg zu geben und sich zu ersparen, in jedem neuen Chat wieder Kontext zu liefern. Doch Vorsicht: Das gebündelte Wissen sorgt für eine massive Betriebsblindheit, wenn es darum geht, Gemini mit neuem Content zu füttern.

Was ist geschehen?

Ich arbeite an einem Plotplan für den neuen Blackburn & Reeves. Nach gemeinsamem Brainstorming auf Basis des bereits geschriebenen Romans habe ich eine Rahmenhandlung und einen Titel. Das Letzte zum Einstieg ist das Cover.

Ich will Gemini das Titelbild des ersten Romans zeigen, damit es den visuellen Stil erkennt und wir gemeinsam überlegen können, welche Elemente auf dem Bild des zweiten Romans zu sehen sein sollten.

Der Fail: Die Halluzination

Gemini behauptete zunächst, das Cover nicht zu sehen und würde auf meinen Upload warten. Als ich darauf hinwies, dass ich das Bild gerade hochgeladen habe, sagte es: „Ah, jetzt.“ Ich bat darum, mir zu beschreiben, was es sieht.

Alles, was darauf kam, war eine Beschreibung aus dem Kontext des Wissens des verknüpften Notebooks, aber nichts davon passte zu dem tatsächlichen Upload. Sprich: Alles geraten, fantasiert, halluziniert.

Auch ein zweiter Upload und ein frischer Chat innerhalb des Gems halfen nicht.

Die technische Diagnose

Zur Sicherheit verließ ich das Gem und ging hinüber in den neutralen Hauptchat von Gemini. Dort wurde das Bild sofort korrekt erkannt. Das Problem ist eine falsche Priorisierung:

Das Gem ist „überzeugt“, dass das gebündelte Wissen aus dem NotebookLM den einzigen relevanten „Upload“ darstellt.
Neue Bild-Uploads im Chat werden ignoriert.
Da das Gem so programmiert ist, hilfsbereit zu sein, sucht es krampfhaft in den Notebook-Texten nach einer Antwort und „lügt“ lieber, als zuzugeben, dass es das neue Bild nicht priorisiert.

Workaround: Wer eine saubere Bildanalyse braucht, muss das Bild in einem neutralen Gemini-Chat (ohne Notebook-Verbindung) analysieren lassen und das Ergebnis dann als Text in das Spezial-Gem kopieren.

Zweite Falle: Youtube & NotebookLM

Eine andere Sache ist noch eine Randnotiz wert, für alle, die Videos als Quellen nutzen wollen:

In NotebookLM lassen sich Videolinks von Youtube als Quellen definieren. Aber: NotebookLM ist blind. Im Gegensatz zu Gemini selbst verarbeitet NotebookLM derzeit keine visuellen Informationen. Es zieht sich das Transkript der Audiospur und analysiert nur das gesprochene Wort.

Wer in Videos „schauspielert“ oder Diagramme zeigt, verliert diese Info.
Bilder als Quellen funktionieren nur per OCR (Texterkennung), die Pixel selbst werden nicht „gesehen“.

Fazit

Man muss es wissen! Für Textarbeit ist die Integration ein Traum, für visuelle Arbeit muss man die Tools trennen. I keep you posted. Sollte ich etwas Neues dazu herausfinden oder Google das Problem auf seiner Seite lösen, erfahrt ihr es hier.