Artikel

Ab jetzt mit Brille: GPT-4V (The Good)

Straßenfoto eines Mannes mit einer Flagge
Straßenfoto eines Mannes mit einer Flagge Chris Marquardt

GPT-4V: The Good, The Bad and The Ugly

Es ist der 12.10.2023 - ich schreibe dieses Datum dazu, weil die Entwicklung dermaßen rasant ist, dass sich die Dinge von Woche zu Woche ändern können. Ich schreibe diesen Text von Hand. Auch das schreibe ich explizit dazu, denn die KI-generierten Texte sind, mit dem richtigen Kontext und Schreibproben aus meiner Feder, jetzt schon so gut, dass der Automat das hier genauso gut schreiben hätte können.

Heute habe ich Zugang zur bezahlten Version von OpenAIs GPT-4V ("V" steht für "Vision". Hier in der Version vom 25.9.2023) erhalten. Die KI kann jetzt Fotos anschauen und Dinge damit tun.

Beispiel gefällig?

Dieses Bild habe ich vor ein paar Wochen in Dresden fotografiert. Schwarzweißbild. Ein Mann geht vor mir mit einer selbstgebauten schwarzen Flagge, an der ein Plüsch-Schaf hängt.

Ich habe das Bild bei ChatGPT hochgeladen und "Bildanalyse bitte" drunter geschrieben. Das hier ist die Antwort:

Dieses Bild zeigt eine Schwarz-Weiß-Aufnahme einer Person von hinten, die eine Art großes Tuch oder Fahne trägt, an deren Spitze ein Plüschtier befestigt ist. Die Person bewegt sich auf einem Gehweg, möglicherweise in einem städtischen Bereich, und im Hintergrund sind beeindruckende architektonische Gebäude zu sehen. Der Himmel ist wolkenverhangen, was dem Bild eine gewisse Dramatik verleiht.

Einige Interpretations- und Analysepunkte:

1. **Komposition und Perspektive**: Die vertikale Aufteilung des Bildes legt den Fokus auf die Person in der Mitte, während die Gebäude und der Himmel den Kontext liefern. Das Bild verwendet eine starke Führungslinie in Form des Gehwegs, um den Blick des Betrachters nach vorne zu lenken.

2. **Dramatik durch Kontrast**: Die Schwarz-Weiß-Farbpalette betont die Textur und den Kontrast. Die Wolken am Himmel und die Struktur des Tuchs oder der Fahne sind besonders hervorzuheben. Diese Wahl kann dazu beitragen, die Stimmung oder die Botschaft des Fotos zu verstärken.

3. **Symbolik**: Das Plüschtier an der Spitze des Tuches oder der Fahne könnte symbolisch sein. Es könnte für Unschuld, Kindheit oder einen bestimmten kulturellen oder persönlichen Bezugspunkt stehen.

4. **Städtischer Kontext**: Die architektonischen Merkmale im Hintergrund weisen auf einen europäischen städtischen Kontext hin, möglicherweise eine historische oder bedeutsame Stadt.

5. **Bewegung**: Die Position der Person, die leicht nach vorne geneigt ist, und die flatternde Fahne deuten auf Bewegung hin, was dem Bild eine dynamische Qualität verleiht.

6. **Menschliche Interaktion**: Obwohl das Gesicht der Person nicht sichtbar ist, erzählt ihre Haltung eine Geschichte. Es könnte eine von Protest, Feier, Trauer oder einer Vielzahl anderer Emotionen sein.

Ohne den genauen Kontext oder die Absicht des Fotografen zu kennen, bleibt die Interpretation offen und subjektiv. Das Bild ist jedoch kraftvoll und provoziert beim Betrachter Gedanken und Gefühle. Es kombiniert Elemente der Straßenfotografie mit einer Art Porträtfotografie, wobei der Fokus auf der Handlung der Person und ihrer Interaktion mit ihrer Umgebung liegt.

Erstaunlich.

Meine nächste Frage lautet: "Kannst Du raten, in welcher Stadt das ist?"

ChatGPT antwortet:

Aufgrund des Hintergrunds und der architektonischen Merkmale würde ich vermuten, dass es sich um eine europäische Stadt handelt. Die Türme und Dächer der Gebäude könnten auf Städte im mittel- oder nordeuropäischen Raum hinweisen.

Ein starker Anhaltspunkt ist der barocke Baustil der Gebäude im Hintergrund. Dieser Stil ist in vielen Städten in Mitteleuropa, insbesondere in Deutschland, zu finden.

Da Sie erwähnt haben, dass Sie in der Nähe von Hannover, Deutschland, ansässig sind und kürzlich durch Osteuropa gereist sind, könnte es sich möglicherweise um eine Stadt in dieser Region handeln.

Eine Möglichkeit könnte Dresden in Deutschland sein, da die Silhouette der Gebäude im Hintergrund Ähnlichkeiten mit der Skyline von Dresden aufweist, insbesondere mit der Frauenkirche und anderen markanten Gebäuden der Stadt.

Es ist jedoch schwierig, eine genaue Stadt nur anhand dieses einen Bildes zu bestimmen, ohne weitere spezifische Merkmale oder Wahrzeichen zu sehen. Dresden ist meine qualifizierte Vermutung basierend auf den gegebenen Informationen und dem Bild. Es könnte jedoch auch eine andere Stadt mit ähnlicher Architektur sein.

Uff. Ich bin leicht geplättet.

Nächster Versuch: Ein Bild mit dem iPhone und vollem digitalem Zoom abends aus der Hand geschossen.

Das Bild zeigt die Stadt Prag, die Hauptstadt der Tschechischen Republik. Erkennbar sind die charakteristischen Brücken über die Moldau, insbesondere die berühmte Karlsbrücke. Die historische Architektur, die Flusslandschaft und die Hügel im Hintergrund sind typisch für Prag. Es ist eine der malerischsten und historisch reichsten Städte in Europa.

Es geht weiter. Mit Essen.

Das Bild zeigt ein ansprechendes Frühstücksarrangement:

1. **Eier**: Drei Spiegeleier auf einem weißen Teller, die Eigelbe wirken teils flüssig.
2. **Salat**: Einige Blätter eines grünen Salats, vielleicht Kopfsalat, zusammen mit kleinen Tomaten auf dem gleichen Teller wie die Eier.
3. **Brot und Gebäck**: Es gibt verschiedene Brotsorten auf einem weißen Servierteller. Dazu gehören ein rundes Brötchen, ein längliches Brötchen und Scheiben von einem Körnerbrot oder einem ähnlichen Brot mit sichtbaren Samen.
4. **Milch**: Ein Glas frischer Milch.
5. **Kaffee**: Eine Tasse schwarzer Kaffee in einer grünen Tasse.
6. **Butter**: Ein kleines Schälchen mit einem Stück Butter.
7. **Zucker und Milchportionen**: Neben dem Kaffee sind kleine Verpackungen von Zucker und vielleicht anderen Süßungsmitteln oder Milchportionen zu sehen.
8. **Besteck**: Ein Messer, eine Gabel und ein Löffel, sauber nebeneinander gelegt auf einer Serviette.
9. **Tischdecke**: Das Frühstück ist auf einer rosafarbenen Tischdecke mit einem filigranen Muster serviert.

Das Frühstück sieht frisch und appetitlich aus, wobei sowohl gesunde als auch herzhafte Komponenten berücksichtigt wurden. Es ist offensichtlich, dass bei der Präsentation des Frühstücks auf Details geachtet wurde.

"Wieviele Kalorien hat dieses Frühstück?"

Eine genaue Schätzung der Kalorien für dieses Frühstück basierend auf dem Bild ist herausfordernd, da die genauen Mengen und spezifischen Zutaten nicht bekannt sind. Aber ich kann eine grobe Schätzung basierend auf den sichtbaren Lebensmitteln und gängigen Portionsgrößen geben:

1. **Spiegeleier (3 Stück)**: Ein mittelgroßes Spiegelei hat ungefähr 68 Kalorien. Das macht insgesamt ca. 204 Kalorien für drei Eier.
2. **Salat und Tomaten**: Sehr kalorienarm. Etwa 10 Kalorien für den kleinen Salat und die Tomaten.
3. **Rundes Brötchen**: Etwa 150 Kalorien.
4. **Längliches Brötchen**: Etwa 100 Kalorien.
5. **Körnerbrot (2 Scheiben)**: Etwa 160 Kalorien.
6. **Milch (250 ml, angenommen)**: Etwa 115 Kalorien, wenn es sich um Vollmilch handelt.
7. **Kaffee**: Wenn es schwarzer Kaffee ohne Zucker oder Milch ist, hat er praktisch keine Kalorien.
8. **Butter (ein Stück)**: Dies hängt von der Menge ab, aber ein typisches 10g-Stück hat etwa 72 Kalorien.
9. **Zucker und Milchportionen**: Wenn sie verwendet werden, können sie variieren, aber nehmen wir an, es sind 20 Kalorien für einen Teelöffel Zucker und 10 Kalorien für eine kleine Milchportion.

Insgesamt könnte dieses Frühstück grob geschätzt **ca. 841 Kalorien** enthalten. Es ist wichtig zu betonen, dass dies nur eine Schätzung ist und die tatsächliche Kalorienzahl je nach genauen Mengen, spezifischen Zutaten und Zubereitungsmethoden variieren kann. Es wäre empfehlenswert, für eine genauere Kalorienzählung auf Nährwerttabellen oder spezialisierte Apps zurückzugreifen.

Etwas komplizierter, die Zutaten jetzt mal gemischt und nicht auf einzelnen Tellerchen sauber von oben fotografiert. Wie wäre es mit Gemüsepfanne.

Das sieht köstlich aus! Auf dem Bild ist ein Gemüsegericht zu sehen, das aus verschiedenen Zutaten besteht:

- **Zucchini**: Erkennbar an den grünen, halbmondförmigen Scheiben.
- **Erbsen**: Die kleinen grünen Kugeln.
- **Paprika**: Scheint in roten und vielleicht gelben Stücken vorhanden zu sein.
- **Tomaten**: Möglicherweise die roten Teile, die eine Sauce bilden.
- **Gehacktes (Tofu oder Fleisch?)**: Es gibt kleine bröckelige Teile, die wie gehacktes Fleisch oder zerbröckelter Tofu aussehen.
- **Blattgemüse**: Vielleicht Spinat oder Mangold, anhand der dunkelgrünen Blätter zu erkennen.
- **Andere Gemüse**: Es sieht so aus, als könnte es weitere Gemüsesorten geben, aber sie sind schwerer zu identifizieren. Es könnte auch Sellerie oder Fenchel darin enthalten sein, anhand der hellgrünen, stangenförmigen Stücke.

Das Gericht scheint in einer Tomatensauce mit Gewürzen und Kräutern gekocht zu sein, die für den Geschmack und die Farbe sorgen. Es ist möglich, dass es auch Gewürze wie Knoblauch, Zwiebeln, Chili oder andere aromatische Zutaten gibt, die in das Gericht integriert sind.

Dieses Gemüsegericht sieht ausgewogen und nährstoffreich aus und eignet sich gut als Hauptgericht oder Beilage.

"Kalorien für einen großen Teller? Bitte nur die geschätzte Summe, ohne all zu viele Details."

Ein großer Teller dieses Gemüsegerichts könnte ungefähr 400-500 Kalorien haben. Dies ist jedoch eine grobe Schätzung, da die genaue Anzahl der Kalorien von den genauen Mengen und Zutaten abhängt.

Noch ein Experiment. Unser Kühlschrank gehört mal wieder aufgeräumt. Was wird GPT aus dem Chaos machen? Ich hätte gerne eine Liste des Inhalts.

Basierend auf dem Foto, das Sie bereitgestellt haben, hier ist eine Liste von dem, was ich in Ihrem Kühlschrank erkennen kann:

Eier (in der Eierbox)
Verschiedene Saucen (z.B. Heinz Zero)
Milch oder Pflanzendrink (z.B. Mandelmilch)
Joghurt oder Quark
Käse (verschiedene Sorten)
Aufstriche oder Dips
Säfte oder Limonaden
Verschiedene Gläser (möglicherweise eingelegtes Gemüse oder Saucen)
Gemüse in der untersten Schublade (genaue Sorten nicht klar ersichtlich)
Einige Beutel oder Verpackungen (Inhalt nicht klar ersichtlich)

Bitte beachten Sie, dass einige Einträge vage sind, da ich nicht alle Etiketten oder den genauen Inhalt aller Verpackungen identifizieren kann. Wenn Sie genauere Informationen oder Vorschläge basierend auf bestimmten Zutaten wünschen, teilen Sie mir das bitte mit.

Nicht 100% aber nahe dran.

Zwischenfazit

Die Fähigkeiten dieses Modells sind, wie so viele KI-Dinge, gleichzeitig beeindruckend und beängstigend. Selbst komplexe Fotos, für deren Verständnis ich als Mensch erst mal etwas Zeit brauche, scheint GPT-4V mit relativer Leichtigkeit zu zerlegen. Nicht immer mit der Tiefe der menschlichen Erfahrung im Gepäck und nicht immer mit der Fähigkeit, Dinge zu verknüpfen, aber das dürfte nur eine Frage der Zeit sein. Dass die KI jetzt multi-modal (d.h. mit Text und Bild) arbeiten kann, ist nur ein Zwischenschritt zur Verarbeitung von Video. Die Zahl der Möglichkeiten, die durch die Bildanalyse eröffnet werden, ist erschreckend. Und darunter sind beileibe nicht nur Lichtblicke.

Beispiele

Lassen wir die Dystopie trotzdem mal beiseite (die wird nachgeliefert, versprochen), gehen vom best case aus und betrachten ein paar Beispiele dafür, was uns die sehende KI an Mehrwert bringen wird, bzw. es jetzt schon tut:

  • Lernen: Foto-Analyse, besser fotografieren lernen durch automatische Bildkritik
  • Ressourcen-Nutzung: Speisekammer und Kühlschrank werden zu Rezeptvorschlägen
  • Interaktives Handbuch: Aufbau-/Reparaturanleitung durch Bilder zeigen. "Ich bin komme beim IVAR-Aufbau nicht weiter, wo gehören die Metallstifte hin?" - "Zeig mal her"
  • Blinden-Unterstützung: Be My AI hilft Blinden beim Sehen. "Wo im Schrank liegen die grünen Socken?"
  • Mathe-Tutor: (Gandgeschriebene) Formel erklären lassen
  • Bilder klonen: GPT-4V erzeugt aus einem Foto ein Prompt für DALL-E 3
  • Vögel/Pflanzen identifizieren: Das Vogelbestimmungsbuch hat endgültig ausgedient
  • OCR: Kassenzettel fotografieren, GPT-4V liefert strukturierte Daten: Verwendungszweck, Datum, Betrag 
  • Web-Entwicklung: Handgezeichnetes Interface wird in HTML/CSS-Code überführt
  • Diagnose von Röntgenbildern: Bildanalyse wird heute schon in der Thorax-Krebsdiagnose eingesetzt

Etwas strukturierter...

Die Fähigkeiten von GPT-4V lassen sich in etwa so strukturieren:

1. Beschreiben
– Identifikation: Beschreibe visuellen Inhalt.
– Medizinische Interpretation: Analysiere medizinische Diagramme und Bilder.
– Technische Interpretation: Verstehe technische Diagramme und Schemata.
– Bildanalyse: Analysiere den Inhalt von Bildern und liefere deduzierten Kontext.
– Inhaltsanalyse: Bewerte den Gehalt und die Gefühlswertung eines Textes.
– Künstlerische Interpretation: Verstehe kulturellen oder künstlerischen Kontext.
– Dateninterpretation: Interpretiere und verstehe visuelle quantitative Daten (Diagramme).

2. Empfehlen
– Kritiken & Rückmeldungen: Bewertung und Kritik von Inhalten oder Designs.
– Empfohlene Maßnahmen: Vorschläge basierend auf Bildern.

3. Konvertieren
– Design zu Implementierung: Konvertiere Designs in umsetzbare Formate.
– Medien zu Text: Konvertiere visuelle Medien in textliche Empfehlungen.
– Visuell zu Erzählung: Wandele Bilder in Geschichten oder Erzählungen um.
– Visuell zu Grafik: Erstelle Aufforderungen basierend auf visuellen Grafiken.

4. Extrahieren
– Handschriftextraktion: Entnehme Daten aus handschriftlichen Inhalten.
– Formale Dokumentenextraktion: Entnehme strukturierte Daten aus Dokumenten.
– Qualitative Extraktion: Entnehme subjektive qualitative Eigenschaften.

5. Unterstützen
– Lösungsaufgabe & Problemlöser: Löse visuell-basierte Aufgaben.
– Erklärende Unterstützung: Biete Erklärungen für visuelle Situationen an.
– Strategieempfehlungen: Gebe Strategien oder Anleitungen basierend auf visuellen Inhalten.

6. Bewerten
– Ästhetische Bewertung: Beurteile visuelle Attraktivität.
– Subjektive Bewertung: Bewerte den Kontext oder die Botschaft eines Inhalts.
– Genauigkeitskontrolle: Überprüfe die technische Richtigkeit oder Genauigkeit.

(Quelle)

Der Marktplatz wächst

Und GPT-4V ist nicht alleine. Mittlerweile ist schon ein Konkurrenzprodukt verfügbar: LLaVA (Large Language and Vision Assistant) - andere werden folgen.

BONUS

Eigentlich wäre der Artikel hier fertig, aber ich bin gerade noch über das hier gestolpert:

(Quelle)

Erstaunlich.

Es geht aber auch schlechter.

Ja, wirklich.