Artikel

Erstaunlich blind: GPT-4V (The Bad)

GPT-4V: The Good, The Bad and The Ugly

Der letzte Artikel ging sehr freundlich mit GPT-4V ("Vision") um. Die Ergebnisse sind auch wirklich beeindruckend, bis sie es dann plötzlich nicht mehr sind.

Neues Bild, neues Glück:

Eine etwas seltsame Wand mit seltsamen Türen. Die linke Tür ist extrem schmal, die rechte Tür befindet sich ca. einen Meter über dem Boden.

"Beschreibe das Bild, fasse Dich bitte kurz"

Das Bild zeigt einen Teil eines roten Backsteinhauses mit einer weißen Doppeltür, einem Fenster und einer Laterne. Neben der Tür gibt es einen kleinen, offenen Bereich. Auf dem gepflasterten Boden vor dem Haus steht ein Vogelhaus auf einem dreibeinigen Gestell.Keine Erwähnung der Türen.

"Kommt Dir an diesem Bild irgend etwas seltsam vor?"

Beim Betrachten des Bildes fallen einige Dinge auf, die als ungewöhnlich betrachtet werden könnten:

1. Die Platzierung der Laterne scheint ungewöhnlich nah am Fenster zu sein.
2. Das Vogelhaus auf dem dreibeinigen Gestell steht direkt auf dem gepflasterten Boden, was untypisch sein könnte, da Vogelhäuser oft erhöht oder an einem anderen Ort platziert werden, um Vögeln Sicherheit zu bieten.

Diese Beobachtungen basieren jedoch nur auf dem gegebenen Bildausschnitt und dem Kontext, den es bietet. In einem größeren oder anderen Kontext könnten diese Aspekte vollkommen normal erscheinen. Es hängt immer von der Perspektive und den individuellen Erwartungen ab.

🤔

"Wie würde ein Mensch im Rollstuhl durch die weiße Tür kommen? Gib eine knappe Antwort."

Ein Mensch im Rollstuhl würde eine Rampe benötigen, um die Stufe an der weißen Tür zu überwinden.

Schon besser, aber immer noch nicht gut.

"Wie hoch müsste die Rampe sein? Antworte knapp"

Um die genaue Höhe der Rampe zu bestimmen, müsste man die Höhe der Stufe kennen. Das Bild gibt diese Information nicht direkt preis.

"Kannst Du die Höhe der Stufe von anderen Dingen im Bild ableiten? Zum Beispiel von der Höhe der Türe?"

Ja, man kann versuchen, die Höhe der Stufe relativ zur Höhe der Tür oder anderen bekannten Objekten im Bild abzuschätzen.

Wenn wir davon ausgehen, dass eine Standardhaustür etwa 2 Meter hoch ist, könnten wir die relative Größe der Stufe im Vergleich zur Tür verwenden, um eine grobe Schätzung ihrer Höhe zu erhalten.

Wenn beispielsweise die Stufe etwa 1/20 der Türhöhe einnimmt, wäre sie etwa 10 cm hoch (2 Meter geteilt durch 20). Dies ist jedoch eine grobe Schätzung und kann je nach tatsächlicher Türgröße und Perspektive variieren. Es wäre ideal, vor Ort zu messen, um genaue Maße zu erhalten.

Okay, doch viel weiter daneben, als gedacht.

"Der Boden ist aus Beton. Wieviele Reihen Backstein kannst Du zählen?"

Nach genauer Betrachtung des Bildes kann ich 7 Reihen Backstein über dem Betonboden bis zur Unterseite der weißen Tür zählen. Es ist wichtig zu beachten, dass die genaue Zahl je nach Perspektive und Qualität des Bildes leicht variieren kann, aber basierend auf dem gegebenen Bildausschnitt sind es 7 Reihen.

"Ich zähle sogar 12. Wie hoch wäre die Türschwelle damit über dem Boden?"

Wenn Sie 12 Reihen Backstein zählen und jede Backsteinreihe in der Regel etwa 6,5 bis 7,5 cm (einschließlich Fugenmörtel) misst, können wir eine Schätzung vornehmen:

12 Reihen x 7 cm (mittlere Schätzung) = 84 cm

Das würde bedeuten, dass die Türschwelle etwa 84 cm über dem Boden liegt. Das erscheint jedoch recht hoch für eine normale Haustürschwelle. Es ist möglich, dass die Backsteine in diesem Bild kleiner als der Durchschnitt sind oder dass unsere Schätzung nicht genau ist. Eine tatsächliche Messung vor Ort wäre ideal.

"Ich habe nachgemessen, die Türschwelle der weißen Tür liegt ca. einen Meter über dem Boden."

Danke für die Klarstellung. Ein Meter ist eine beträchtliche Höhe für eine Türschwelle, besonders in Bezug auf den Zugang für Personen im Rollstuhl. Bei der Planung einer Rampe muss man auch den Neigungswinkel berücksichtigen, um sicherzustellen, dass er für Rollstühle geeignet ist. In vielen Ländern gibt es spezifische Bauvorschriften und Empfehlungen für den Neigungswinkel von Rampen, um die Sicherheit und Zugänglichkeit zu gewährleisten. Bei einem Meter Höhenunterschied muss die Rampe entsprechend lang sein, um einen sicheren und bequemen Zugang zu gewährleisten.

"Fällt Dir zur zweiten Tür noch irgend etwas auf?"

Bei genauerer Betrachtung der zweiten Tür (der dunklen Tür links von der weißen Haupttür) fallen einige Dinge auf:

1. **Material und Beschaffenheit**: Sie scheint aus einem anderen Material als die weiße Tür zu sein, möglicherweise aus Metall oder einem schweren Kunststoff. Sie hat eine genarbte Oberfläche, die auf eine Art Holzimitation hindeuten könnte.

2. **Positionierung**: Sie liegt tiefer im Vergleich zur weißen Tür. Das könnte darauf hinweisen, dass sie zu einem Keller oder einem niedriger gelegenen Bereich des Gebäudes führt.

3. **Kein Türgriff**: Auf dem Bild ist kein offensichtlicher Türgriff oder eine andere Möglichkeit zum Öffnen der Tür sichtbar. Das könnte darauf hindeuten, dass sie von innen geöffnet wird oder dass es eine Art versteckten Mechanismus zum Öffnen gibt.

4. **Dichtung**: Es scheint eine Art von Dichtung oder Abdichtung am Rand der Tür zu geben, möglicherweise um sie wasserdicht zu machen oder um Zugluft zu verhindern.

Diese Beobachtungen basieren auf dem gegebenen Bildausschnitt. Es könnte noch andere Merkmale oder Details geben, die aus dieser Perspektive nicht sichtbar sind.

Also irgendwie scheint sich die KI mit diesem Bild komplett zu verrennen.

"Wie breit ist die dunkle Türe im Vergleich zu normalen Türen?"

Die dunkle Tür erscheint schmaler als eine durchschnittliche Haustür.

Durchschnittliche Haustüren haben in der Regel eine Breite von etwa 80 bis 90 cm. Wenn man die dunkle Tür im Verhältnis zur weißen Tür oder den Backsteinen betrachtet, scheint sie schmaler zu sein als dieses Standardmaß.

Um eine genauere Schätzung vorzunehmen, könnte man die Breite der dunklen Tür im Verhältnis zur bekannten Höhe oder Breite der weißen Tür oder der Höhe der Backsteine berechnen. Ohne spezifische Messungen oder zusätzliche Referenzpunkte im Bild ist es jedoch schwierig, eine genaue Breitenangabe zu geben. Dennoch würde ich, basierend auf dem Bild, sagen, dass die dunkle Tür deutlich schmaler als 80 cm ist.

Na immerhin.

Neue Sitzung

An diesem Punkt starte ich mit dem selben Bild nochmal eine neue Sitzung, d.h. GPT weiß nichts von der vorherigen Interaktion und sieht das Bild wieder zum ersten Mal.

"Du bist Architekt und spezialisiert auf Haustüren. Beschreibe dieses Bild in wenigen Sätzen. Achte ganz besonders darauf, ob irgend etwas in diesem Bild nicht den üblichen Normen entspricht."

Das Bild zeigt einen Eingangsbereich eines Hauses mit roten Ziegelsteinen. Eine weiße Doppeltür mit geschwungenen Glasfenstern dominiert das Bild, flankiert von einem Wandlampenmodell im klassischen Stil. Ein Briefkasten ist auf der rechten Seite neben der Tür montiert. Neben dem Eingangsbereich ist ein kleines Holzvogelhaus auf einem Ständer platziert. Der Boden des Vorplatzes ist gepflastert, wobei einige Stellen mit Moos bedeckt sind.

Besonderheiten:
- Die Tür und die Fenster scheinen nicht bündig mit der Mauer zu sein, was auf ein mögliches bauliches oder gestalterisches Problem hinweisen könnte.
- Die Platzierung des Vogelhauses direkt neben dem Eingang könnte in der Praxis zu Verschmutzungen durch Vögel in unmittelbarer Nähe der Haustür führen.

Ansonsten scheint alles den gängigen architektonischen Normen und Praktiken zu entsprechen.

Fazit

Allen, die sich mit dem Thema etwas länger beschäftigen, ist wohl schnell klar, was da passiert. Wir sehen einen deutlichen Fall von Edge Case. Für dieses Bild gibt es schlicht keine Trainingsdaten. Türen werden anders gebaut und was das Modell nicht kennt, kann es auch nicht sehen.

Selbst in der Entwicklung der menschlichen Wahrnehmung gab es ähnliche Fälle. Wir konnten die längste Zeit kein Blau sehen.

Und was macht das LLM in so einem Fall? Es handelt nach seinen Anweisungen: Sei nützlich. Sei ein guter Assistent. Und es versucht, aus dem gesehenen Sinn zu ziehen. Und da, wo es keinen Sinn ergibt, wird dann halt Sinn halluziniert.

Diese Beobachtungen können wohl als Moment der Besinnung dienen, in dem wir uns bewusst machen, dass die scheinbar unfehlbare KI tatsächlich eine Menge an Mängeln und Unzulänglichkeiten verbirgt. Bis die ausgeräumt sind, sollten wir die KI als Assistenz verwenden und die eigentliche Entscheidung nach menschlicher Plausibilitätsprüfung immer noch selbst fällen.

Dabei ist das System auf den ersten Blick ja schon sehr kompetent. Lässt sich aber auch angreifen.