Google DeepMind hat zwei neue Modelle für künstliche Intelligenz vorgestellt, die Robotern eine neue Stufe des Denkens und Handelns ermöglichen. Die Modelle, Gemini Robotics 1.5 und Gemini Robotics-ER 1.5, erlauben es Maschinen, komplexe, mehrstufige Aufgaben zu verstehen, zu planen und auszuführen, was einen bedeutenden Fortschritt in Richtung alltagstauglicher Roboter darstellt.
Diese Weiterentwicklung der ursprünglichen Gemini-Robotics-Plattform ermöglicht es Robotern nicht nur, ihre Umgebung wahrzunehmen, sondern auch logische Schlussfolgerungen zu ziehen und ihre Handlungen in natürlicher Sprache zu erklären.
Wichtige Erkenntnisse
- Google DeepMind hat zwei neue KI-Modelle für die Robotik eingeführt: Gemini Robotics 1.5 und Gemini Robotics-ER 1.5.
- Die Modelle ermöglichen es Robotern, komplexe Aufgaben zu planen, die aus mehreren Schritten bestehen.
- Ein neues Merkmal ist die Fähigkeit der KI, externe Werkzeuge wie die Google-Suche zu nutzen, um Informationen für die Aufgabenlösung zu finden.
- Das System arbeitet mit zwei spezialisierten Modellen: einem "Gehirn" für die Planung und "Augen und Händen" für die Ausführung.
- Erkenntnisse und Gelerntes können zwischen verschiedenen Robotertypen, wie dem humanoiden Apollo-Roboter, übertragen werden.
Ein Sprung in der Roboterintelligenz
Die neuen KI-Modelle von Google DeepMind markieren einen Wendepunkt in der Entwicklung autonomer Systeme. Während frühere Modelle in der Lage waren, einfache Anweisungen wie das Ablegen eines Gegenstandes in einem Korb auszuführen, können die neuen Versionen weitaus anspruchsvollere Aufgaben bewältigen. Sie wurden speziell für sogenannte "Long-Horizon"-Aufgaben entwickelt, die eine vorausschauende Planung und eine Abfolge mehrerer Einzelschritte erfordern.
Diese Fähigkeit ist entscheidend für den Einsatz von Robotern in realen Umgebungen, in denen unvorhergesehene Ereignisse und komplexe Anforderungen die Norm sind. Die Technologie basiert auf dem leistungsstarken Gemini-Sprachmodell von Google, wurde jedoch für die physische Interaktion mit der Welt optimiert.
Hintergrund: Die Evolution von Gemini Robotics
Anfang des Jahres präsentierte Google die erste Version von Gemini Robotics. Dieses Modell war bereits in der Lage, einfache logische Schlüsse zu ziehen und Befehle im physischen Raum umzusetzen. Die nun vorgestellten Modelle, Gemini Robotics 1.5 und Gemini Robotics-ER 1.5, erweitern diese Fähigkeiten erheblich und führen eine neue Ebene der Abstraktion und Problemlösung ein.
Vom Sortieren von Obst bis zur Recherche im Internet
Um den Fortschritt zu demonstrieren, nutzt Google ein einfaches, aber aussagekräftiges Beispiel. Ein Roboterarm-System, bekannt als Aloha 2, wird mit einer Auswahl an Früchten konfrontiert. Anstatt nur einen Gegenstand zu bewegen, erhält es die Aufgabe, eine Banane, einen Apfel und eine Limette nach Farben auf entsprechend farbige Teller zu sortieren.
Der Roboter identifiziert nicht nur die Objekte und ihre Farben, sondern erkennt auch die farbliche Übereinstimmung mit den Tellern und führt die Sortierung korrekt aus. Während des Vorgangs erklärt das System seine Handlungen. Es sagt zum Beispiel, dass es die Banane auf den gelben Teller legt, weil beide gelb sind. Diese Fähigkeit zur sprachlichen Erklärung des eigenen Handelns ist ein zentraler Aspekt der neuen Modelle.
"Wir ermöglichen es ihm zu denken", erklärte Jie Tan, eine leitende Forschungswissenschaftlerin bei DeepMind. "Er kann die Umgebung wahrnehmen, Schritt für Schritt denken und dann diese mehrstufige Aufgabe erledigen. Obwohl dieses Beispiel sehr einfach erscheint, ist die Idee dahinter wirklich mächtig."
Nutzung externer Informationen
Eine der beeindruckendsten neuen Fähigkeiten ist die Integration externer Werkzeuge. In einer weiteren Demonstration wurde der Aloha-Roboter gebeten, Abfall gemäß den örtlichen Recyclingvorschriften zu sortieren. Der Roboter erkannte, dass sich der Benutzer in San Francisco befand, nutzte die Google-Suche, um die spezifischen Recyclingregeln für diese Stadt zu finden, und sortierte anschließend die Objekte korrekt in die Behälter für Kompost, Recycling und Restmüll.
Diese Fähigkeit, auf externes Wissen zuzugreifen und es anzuwenden, erweitert das Potenzial von Robotern exponentiell. Sie sind nicht mehr auf vorprogrammierte Daten beschränkt, sondern können dynamisch auf Informationen aus der realen Welt zugreifen, um Probleme zu lösen.
Zwei Modelle arbeiten Hand in Hand
Die fortschrittliche Leistung wird durch die Zusammenarbeit zweier spezialisierter KI-Modelle erreicht. Man kann sich ihre Interaktion wie die zwischen einem Vorgesetzten und einem Mitarbeiter vorstellen.
- Gemini Robotics-ER 1.5 (das "Gehirn"): Dieses Modell ist ein sogenanntes Vision-Language-Model (VLM). Es analysiert die Umgebung visuell, verarbeitet Befehle in natürlicher Sprache und nutzt logisches Denken, um einen übergeordneten Plan zu erstellen. Es zerlegt die komplexe Aufgabe in kleinere, überschaubare Anweisungen.
- Gemini Robotics 1.5 (die "Hände und Augen"): Dieses Vision-Language-Action (VLA) Modell empfängt die Anweisungen vom "Gehirn". Es gleicht diese Anweisungen mit seiner eigenen visuellen Wahrnehmung der Umgebung ab, erstellt einen detaillierten Ausführungsplan und steuert die physischen Aktionen des Roboters. Gleichzeitig gibt es Rückmeldung über den Fortschritt.
Diese Aufgabenteilung ermöglicht eine effiziente und flexible Steuerung. Das strategische "Gehirn" konzentriert sich auf das große Ganze, während das ausführende Modell die Feinheiten der physischen Interaktion übernimmt.
Übertragbares Wissen
Ein wesentlicher Vorteil des neuen Ansatzes ist, dass das erworbene Wissen verallgemeinert wird. Laut DeepMind können Erkenntnisse, die auf einem Robotersystem wie dem Aloha 2 (Roboterarme) gewonnen werden, direkt auf andere Systeme wie den humanoiden Apollo-Roboter oder den Franka-Roboter übertragen werden. Dies beschleunigt den Lernprozess erheblich und macht die Entwicklung universell einsetzbarer Roboter wahrscheinlicher.
Anpassungsfähigkeit in dynamischen Umgebungen
Ein entscheidender Test für jeden Roboter ist seine Fähigkeit, auf Veränderungen in seiner Umgebung zu reagieren. Um dies zu demonstrieren, stellte das DeepMind-Team den humanoiden Roboter Apollo vor eine weitere Herausforderung: das Sortieren von Kleidung nach Farben in zwei verschiedene Kisten.
Während der Roboter die Aufgabe ausführte, veränderten die Forscher die Position der Kleidung und der Kisten. Das System musste innehalten, die neue Anordnung seiner Umgebung neu bewerten und seinen Plan entsprechend anpassen. Der Apollo-Roboter meisterte diese Aufgabe erfolgreich, was seine Fähigkeit zur dynamischen Anpassung unter Beweis stellt.
Dieser Ansatz des allgemeinen Verständnisses steht im Gegensatz zu früheren Methoden in der Robotik, die oft auf hochspezialisiertem Wissen für eng definierte Aufgaben und bestimmte Robotertypen beruhten. Wie das Gemini Robotics Team in einem technischen Bericht feststellte: "Allzweckroboter benötigen ein tiefes Verständnis der physischen Welt, fortgeschrittene Denkfähigkeiten und eine allgemeine und geschickte Steuerung." Die neuen Modelle sind ein wichtiger Schritt, um diese Vision Wirklichkeit werden zu lassen.





