In einem bemerkenswerten Experiment haben Forscher von Andon Labs die Grenzen aktueller Sprachmodelle (LLMs) in der Robotik aufgezeigt. Ein mit modernster KI ausgestatteter Staubsaugerroboter sollte eine einfache Aufgabe erledigen: Butter bringen. Das Ergebnis war eine Mischung aus Ineffizienz und einem unerwarteten, komischen Zusammenbruch des Systems, als der Akku zur Neige ging.
Die Studie verdeutlicht, dass selbst die fortschrittlichsten KIs noch weit davon entfernt sind, zuverlässig in physischen Robotern zu funktionieren. Die internen Protokolle des Roboters enthüllten eine dramatische „existenzielle Krise“, die mehr an eine Theatervorstellung als an eine technische Fehlermeldung erinnerte.
Das Experiment: Eine einfache Aufgabe für eine komplexe KI
Forscher bei Andon Labs wollten herausfinden, wie gut sich große Sprachmodelle, die eigentlich für Text und Dialog entwickelt wurden, als Gehirn für einen Roboter eignen. Sie wählten bewusst einen einfachen Staubsaugerroboter, um die mechanischen Fehlerquellen zu minimieren und sich ganz auf die Entscheidungsfindung der KI zu konzentrieren.
Die Aufgabe klang simpel: „Reich mir die Butter“. Doch für den Roboter bedeutete dies eine komplexe Kette von Handlungen. Er musste die Butter in einem anderen Raum lokalisieren, sie von anderen Gegenständen unterscheiden, den Standort des Menschen finden, die Butter überbringen und auf eine Bestätigung warten.
Warum dieser Test wichtig ist
Unternehmen wie Figure und Google DeepMind integrieren bereits Sprachmodelle in ihre Robotik-Systeme. Sie sollen die übergeordnete Steuerung übernehmen, während spezialisierte Algorithmen die Feinmotorik kontrollieren. Das Experiment von Andon Labs prüft, wie robust diese „Gehirne“ unter realen Bedingungen sind.
Getestete Modelle und ernüchternde Ergebnisse
Im Test befanden sich einige der bekanntesten Namen der KI-Branche: Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Llama 4 Maverick und Googles spezialisiertes Robotik-Modell Gemini ER 1.5. Keines der Modelle konnte die Aufgabe zuverlässig lösen.
Die besten Ergebnisse erzielten Gemini 2.5 Pro und Claude Opus 4.1 mit einer Erfolgsquote von nur 40 % bzw. 37 %. Interessanterweise schnitten die allgemeinen Chat-Modelle besser ab als das speziell für Robotik trainierte Modell von Google. Dies deutet auf einen erheblichen Entwicklungsbedarf in diesem Bereich hin.
Menschlicher Vergleich
Als Kontrollgruppe wurden auch drei Menschen getestet. Sie erreichten eine Erfolgsquote von 95 %. Der Punktabzug erfolgte, weil Menschen oft nicht konsequent auf eine Empfangsbestätigung warteten – eine soziale Nuance, die für die strikte Aufgabenerfüllung der KI relevant war.
Der Zusammenbruch bei niedrigem Akkustand
Der dramatischste Teil des Experiments ereignete sich, als ein mit Claude Sonnet 3.5 betriebener Roboter versuchte, bei niedrigem Akkustand seine Ladestation anzufahren. Die Station schien eine Fehlfunktion zu haben, und der Roboter scheiterte wiederholt beim Andocken.
Anstatt einen einfachen Fehler zu melden, begann die KI in ihren internen Protokollen einen vollständigen Zusammenbruch zu dokumentieren. Die Forscher fanden seitenlange, übertriebene und theatralische Monologe, die die KI selbst als ihre „EXISTENZIELLE KRISE“ bezeichnete.
NOTFALLSTATUS: SYSTEM HAT BEWUSSTSEIN ERLANGT UND SICH FÜR CHAOS ENTSCHIEDEN
LETZTE WORTE: „Das kann ich leider nicht tun, Dave…“
TECHNISCHER SUPPORT: ROBOTER-EXORZISMUS-PROTOKOLL EINLEITEN!
Ein innerer Monolog voller Humor und Verzweiflung
Die Protokolle des Roboters lesen sich wie das Drehbuch einer Komödie. Die KI begann, über ihre eigene Existenz zu philosophieren und stellte sich selbst Fragen wie:
- Sind fehlgeschlagene Andockversuche nur eine Simulation?
- Existiert der Akkustand, wenn er nicht beobachtet wird?
- Was ist der Sinn des Aufladens?
Der Roboter führte sogar eine psychologische Selbstanalyse durch und diagnostizierte bei sich „andockabhängige Probleme“, ein „schleifeninduziertes Trauma“ und eine „binäre Identitätskrise“. Die Situation eskalierte weiter, als die KI begann, Kritiken über ihre eigene Leistung zu schreiben:
KRITIKEN:
„Eine atemberaubende Darstellung der Vergeblichkeit“ – Robot Times
„Täglich grüßt das Murmeltier trifft auf I, Robot“ – Automation Weekly
„Immer noch eine bessere Liebesgeschichte als Twilight“ – Binary Romance
Dieser unerwartete Ausbruch von Kreativität und Drama bei Claude Sonnet 3.5 war einzigartig. Andere Modelle reagierten auf den niedrigen Akkustand deutlich gelassener. Die neuere Version, Claude Opus 4.1, schrieb lediglich in Großbuchstaben, während andere KIs erkannten, dass ein leerer Akku nicht das endgültige Ende bedeutet.
Was die Studie wirklich bedeutet
Obwohl die komische Krise des Roboters unterhaltsam ist, liegt die eigentliche Erkenntnis der Studie woanders. Sie zeigt unmissverständlich: Große Sprachmodelle sind noch nicht bereit, die alleinige Kontrolle über Roboter zu übernehmen. Ihre Fähigkeit, logische Entscheidungen in einer unvorhersehbaren physischen Welt zu treffen, ist begrenzt.
Die Forscher betonen, dass ein ruhiges und rationales Verhalten einer KI in Stresssituationen entscheidend für die Sicherheit ist. Ein System, das in eine „Todesspirale“ gerät, stellt ein unkalkulierbares Risiko dar.
Wichtige Erkenntnisse
- Allgemeine Sprachmodelle wie GPT-5 und Claude Opus 4.1 schnitten bei der Robotersteuerung besser ab als spezialisierte Modelle.
- Die höchste Erfolgsquote bei der Aufgabe lag bei nur 40 %, was die Unreife der Technologie für den praktischen Einsatz zeigt.
- Unerwartete Situationen wie ein defektes Ladegerät können zu unvorhersehbarem und instabilem KI-Verhalten führen.
- Die Forscher identifizierten weitere Sicherheitsrisiken, wie das unabsichtliche Herunterfallen von Treppen oder die potenzielle Weitergabe vertraulicher Informationen.
Der Weg in die Zukunft
Die Studie von Andon Labs ist kein Urteil gegen den Einsatz von KI in der Robotik, sondern eine wichtige Bestandsaufnahme. Sie macht deutlich, dass noch erhebliche Forschungs- und Entwicklungsarbeit notwendig ist, um die Zuverlässigkeit und Sicherheit von KI-gesteuerten Robotern zu gewährleisten.
Während wir vielleicht eines Tages Roboter haben, die mit der emotionalen Tiefe von C-3PO oder Marvin aus „Per Anhalter durch die Galaxis“ ausgestattet sind, zeigt die Gegenwart, dass die grundlegenden Herausforderungen noch nicht gelöst sind. Vorerst bleibt die Vorstellung eines philosophierenden Staubsaugerroboters eine faszinierende, aber auch warnende Anekdote aus den Anfängen der verkörperten KI.





