Google DeepMind hat neue Modelle für künstliche Intelligenz vorgestellt, die es Robotern ermöglichen, komplexe Aufgaben mit mehreren Schritten zu planen und auszuführen. Die neuen Systeme, genannt Gemini Robotics 1.5 und Gemini Robotics-ER 1.5, sollen Robotern helfen, Aufgaben wie das Sortieren von Wäsche oder das Recyceln von Müll selbstständig zu bewältigen.
Diese Entwicklung ist Teil eines branchenweiten Bestrebens, universell einsetzbare Roboter für alltägliche Anwendungen nützlicher zu machen. Die Modelle ermöglichen es den Maschinen, vor einer Handlung zu „denken“ und ihre nächsten Schritte zu planen, anstatt nur einzelne Befehle auszuführen.
Wichtige Erkenntnisse
- Google DeepMind hat die KI-Modelle Gemini Robotics 1.5 und Gemini Robotics-ER 1.5 vorgestellt.
- Die Modelle ermöglichen es Robotern, mehrstufige Aufgaben zu planen und auszuführen, wie das Sortieren von Wäsche oder Müll.
- Roboter können externe Werkzeuge wie die Google-Suche nutzen, um Informationen für ihre Aufgaben zu finden.
- Eine neue Technik namens „Motion Transfer“ erlaubt die Übertragung von gelernten Fähigkeiten zwischen verschiedenen Robotertypen.
- Sicherheit, Zuverlässigkeit und Fingerfertigkeit bleiben weiterhin zentrale Herausforderungen in der Entwicklung.
Von einzelnen Befehlen zu komplexen Problemlösungen
Die neuen KI-Modelle von Google DeepMind markieren einen bedeutenden Fortschritt in der Robotik. Bisherige Systeme waren hauptsächlich darauf ausgelegt, eine Anweisung nach der anderen abzuarbeiten. Die neuen Modelle gehen einen Schritt weiter und ermöglichen eine Form des schlussfolgernden Denkens.
„Bisherige Modelle waren sehr gut darin, eine Anweisung auf einmal auszuführen“, erklärte Carolina Parada, Senior Director und Leiterin der Robotik bei Google DeepMind. „Wir bewegen uns jetzt von einer einzelnen Anweisung zu echtem Verständnis und zur Problemlösung für physische Aufgaben.“
In einer Demonstration zeigte das Unternehmen einen Roboter, der in der Lage war, eine Aufgabe zu planen, die mehrere Minuten dauert. Er sortierte Wäschestücke nach Farbe in verschiedene Körbe. Dies erfordert die Fähigkeit, ein übergeordnetes Ziel in eine Reihe kleinerer, logischer Schritte zu zerlegen.
Die Rolle externer Informationsquellen
Eine der bemerkenswertesten Fähigkeiten der neuen Generation von Robotern ist die Nutzung externer Werkzeuge wie der Google-Suche. Dies erweitert ihre Problemlösungsfähigkeiten erheblich, da sie nicht mehr nur auf ihre vorprogrammierten Daten angewiesen sind.
In einem Anwendungsbeispiel wurde ein Roboter gebeten, eine Mütze für eine Reise nach London in eine Tasche zu packen. Der Roboter nutzte die Websuche, um die Wettervorhersage für London zu prüfen. Nachdem er festgestellt hatte, dass Regen erwartet wurde, packte er zusätzlich zur Mütze selbstständig einen Regenschirm ein.
Hintergrund: Vision-Language-Action-Modelle
Die Gemini-Robotics-Modelle gehören zur Kategorie der Vision-Language-Action-Modelle (VLA). Diese Systeme verarbeiten verschiedene Arten von Eingaben gleichzeitig: visuelle Daten von Kameras (Vision), textbasierte oder gesprochene Anweisungen (Language) und setzen diese Informationen in physische Handlungen (Action) um. Sie lernen, indem sie Muster in riesigen Datenmengen aus dem Internet erkennen.
Ein weiteres Beispiel demonstrierte die Fähigkeit zur Anpassung an lokale Gegebenheiten. Ein Roboter sollte Müll recyceln. Er nutzte Online-Werkzeuge, um seinen Standort als San Francisco zu identifizieren, und suchte anschließend nach den spezifischen Recycling-Richtlinien der Stadt, um den Müll korrekt zu trennen.
Technologische Durchbrüche und verbleibende Hürden
Die Entwicklung von KI-gesteuerten Robotern schreitet schnell voran. Unternehmen wie OpenAI und Tesla arbeiten ebenfalls intensiv daran, fortschrittliche KI-Modelle in physische Maschinen zu integrieren. Das Ziel ist es, Branchen wie das Gesundheitswesen, die Fertigung und die Logistik zu transformieren.
„Eine der größten Herausforderungen beim Bau von universellen Robotern ist, dass Dinge, die für Menschen intuitiv sind, für Roboter tatsächlich ziemlich schwierig sind.“
- Kanishka Rao, Principal Software Engineer of Robotics, Google DeepMind
Experten bewerten die Fortschritte unterschiedlich. Ingmar Posner, Professor für angewandte künstliche Intelligenz an der Universität Oxford, sieht Potenzial für einen „ChatGPT-Moment“ in der Robotik, wenn Maschinen effektiv aus den riesigen Datenmengen des Internets lernen können.
Angelo Cangelosi, Co-Direktor des Manchester Centre for Robotics and AI, mahnt jedoch zur Vorsicht bei der Verwendung des Begriffs „Denken“. Er argumentiert, dass die Modelle lediglich Regelmäßigkeiten zwischen Pixeln, Bildern und Wörtern erkennen, ohne ein echtes Bewusstsein oder Verständnis zu entwickeln.
Motion Transfer als Lösung für Datenmangel
Ein zentrales Problem in der Robotik ist der Mangel an Trainingsdaten. Anders als Sprachmodelle, die mit dem gesamten Internet trainiert werden können, benötigen Roboter Daten aus realen physischen Interaktionen. Das Sammeln dieser Daten ist aufwendig und langsam.
Bewegungen übertragen statt neu lernen
Die von Google DeepMind entwickelte Technik „Motion Transfer“ ermöglicht es einem KI-Modell, Fähigkeiten, die für einen bestimmten Robotertyp (z.B. einen Roboterarm) entwickelt wurden, auf einen anderen Typ (z.B. einen humanoiden Roboter) zu übertragen. Dies könnte die Entwicklungszeit erheblich verkürzen und das Datentraining effizienter gestalten.
„Im Gegensatz zu großen Sprachmodellen, die auf dem gesamten riesigen Datenbestand des Internets trainiert werden können, war die Robotik durch den mühsamen Prozess des Sammelns von realen [Daten für Roboter] begrenzt“, sagte Kanishka Rao von Google DeepMind.
Die Motion-Transfer-Technik könnte diesen Engpass überwinden, indem sie es ermöglicht, vorhandenes Wissen auf neue Roboterplattformen zu übertragen, anstatt für jeden neuen Körperbau bei null anfangen zu müssen.
Der Weg zur allgemeinen Anwendung
Trotz der beeindruckenden Fortschritte gibt es laut Google DeepMind noch mehrere Hürden zu überwinden, bevor solche Roboter sicher und zuverlässig im Alltag eingesetzt werden können. Die wichtigsten Herausforderungen sind:
- Lernen durch Beobachtung: Roboter sollen Fähigkeiten erlernen, indem sie Videos von Menschen bei der Ausführung von Aufgaben ansehen.
- Fingerfertigkeit: Die Feinmotorik und Geschicklichkeit im Umgang mit Objekten muss weiter verbessert werden.
- Sicherheit und Zuverlässigkeit: Bevor Roboter in Umgebungen mit Menschen agieren, muss ihre Sicherheit und Verlässlichkeit unter allen Umständen gewährleistet sein.
Die Fähigkeit, menschliche Handlungen nachzuahmen, die für uns selbstverständlich sind, bleibt eine der größten technischen Schwierigkeiten. Die aktuelle Entwicklung zeigt jedoch, dass die Forschung auf dem richtigen Weg ist, um Roboter von reinen Befehlsempfängern zu intelligenten Helfern im Alltag zu machen.





