Google hat eine Vorschauversion seines neuen KI-Modells Gemini 2.5 Computer Use für Entwickler freigegeben. Dieses spezialisierte Modell kann grafische Benutzeroberflächen, insbesondere Webseiten, autonom bedienen, um komplexe, mehrstufige Aufgaben zu erledigen. Die Technologie bildet die Grundlage für Funktionen wie Project Mariner und den KI-Modus in Android.
Wichtige Erkenntnisse
- Google hat Gemini 2.5 Computer Use als Entwicklervorschau veröffentlicht.
- Das KI-Modell ist darauf spezialisiert, Webbrowser und Webseiten zu steuern.
- Es analysiert Screenshots und Nutzeranfragen, um Aktionen wie Klicken, Tippen oder Scrollen auszuführen.
- Die Technologie ist bereits über die Gemini API in Google AI Studio und Vertex AI verfügbar.
Ein neues KI-Modell für die Automatisierung von Aufgaben
Google erweitert die Fähigkeiten seiner Gemini-Familie um ein spezialisiertes Modell namens Gemini 2.5 Computer Use. Dieses Modell wurde entwickelt, um direkt mit grafischen Benutzeroberflächen (GUIs) zu interagieren. Der Schwerpunkt liegt dabei auf der Steuerung von Webbrowsern und Webseiten, was eine neue Stufe der Workflow-Automatisierung ermöglicht.
Die Technologie soll die Lücke zwischen menschlicher Anweisung und computergestützter Ausführung schließen. Anstatt nur Informationen zu verarbeiten, kann dieses KI-Modell aktiv handeln und Aufgaben ausführen, die bisher manuelle Eingriffe erforderten. Es ist die technische Basis für ambitionierte Google-Projekte wie Project Mariner, das als proaktiver KI-Assistent dienen soll.
Was ist ein agentisches KI-Modell?
Ein agentisches KI-Modell, oft auch als "KI-Agent" bezeichnet, ist ein System, das nicht nur auf Anfragen reagiert, sondern autonom Ziele verfolgen und Aktionen in einer digitalen Umgebung ausführen kann. Es analysiert seinen Zustand, plant Schritte und führt diese aus, um eine vorgegebene Aufgabe zu erfüllen. Gemini 2.5 Computer Use ist ein Beispiel für ein solches Modell, das auf die Steuerung von Benutzeroberflächen spezialisiert ist.
Wie Gemini 2.5 Computer Use funktioniert
Die Funktionsweise des Modells basiert auf einem sich wiederholenden Kreislauf, der so lange ausgeführt wird, bis die gestellte Aufgabe abgeschlossen ist. Dieser Prozess lässt sich in mehrere Schritte unterteilen, die eine nahtlose Interaktion zwischen dem KI-Modell und der Weboberfläche gewährleisten.
Der Interaktionszyklus im Detail
Der Prozess beginnt, wenn eine Anfrage an das Modell gesendet wird. Diese Anfrage enthält drei wesentliche Komponenten: die ursprüngliche Anweisung des Nutzers, einen aktuellen Screenshot der Benutzeroberfläche und eine Historie der zuletzt durchgeführten Aktionen.
Das KI-Modell analysiert diese Eingaben und generiert als Antwort einen Befehl, meist in Form eines Funktionsaufrufs. Dieser Befehl repräsentiert eine konkrete UI-Aktion, wie das Klicken auf eine Schaltfläche oder das Ausfüllen eines Textfeldes.
Ein clientseitiger Code führt anschließend die vom Modell vorgegebene Aktion im Browser aus. Nach der Ausführung werden ein neuer Screenshot der veränderten Oberfläche und die aktuelle URL als Bestätigung an das Modell zurückgesendet. Damit schließt sich der Kreislauf und beginnt von vorn, bis die gesamte Aufgabe erledigt ist.
Unterstützte UI-Aktionen
Das Modell beherrscht eine Vielzahl von Aktionen zur Steuerung von Webseiten. Dazu gehören:
- Klicken und Tippen
- Vor- und Zurücknavigieren im Browser
- Durchführen einer Websuche
- Ansteuern einer spezifischen URL
- Bewegen des Cursors (Hover)
- Tastenkombinationen
- Scrollen auf einer Seite
- Drag-and-Drop-Operationen
Praktische Anwendungsbeispiele in der Demonstration
Um die Leistungsfähigkeit von Gemini 2.5 Computer Use zu veranschaulichen, hat Google zwei Videos veröffentlicht, die komplexe Aufgaben zeigen. Diese Demonstrationen laufen mit dreifacher Geschwindigkeit, um den Prozess zu verkürzen.
Beispiel 1: Datenübertragung und Terminplanung
Im ersten Beispiel erhält die KI den folgenden Auftrag:
"Von https://tinyurl.com/pet-care-signup, hole alle Details für jedes Haustier mit Wohnsitz in Kalifornien und füge sie als Gast in mein Spa-CRM unter https://pet-luxe-spa.web.app/ hinzu. Richte dann einen Folgetermin mit der Spezialistin Anima Lavar für den 10. Oktober nach 8 Uhr morgens ein. Der Grund für den Besuch ist derselbe wie die angeforderte Behandlung."
Das Modell navigiert daraufhin zur ersten Webseite, identifiziert und extrahiert die relevanten Daten, öffnet die CRM-Anwendung, fügt die Informationen in die entsprechenden Felder ein und bucht anschließend den Termin im Kalender. Dieser Vorgang zeigt die Fähigkeit, Informationen über verschiedene Webanwendungen hinweg zu verarbeiten.
Beispiel 2: Organisation digitaler Notizen
Das zweite Beispiel demonstriert die Fähigkeit zur visuellen Organisation:
"Mein Kunstclub hat Aufgaben für unseren bevorstehenden Markt gebrainstormt. Das Board ist chaotisch und ich brauche deine Hilfe, um die Aufgaben in die von mir erstellten Kategorien zu organisieren. Gehe zu sticky-note-jam.web.app und stelle sicher, dass die Notizen klar in den richtigen Abschnitten sind. Ziehe sie dorthin, falls nicht."
Hier öffnet die KI die angegebene Webseite, analysiert die Position der digitalen Haftnotizen und verschiebt sie per Drag-and-Drop in die korrekten Kategorien. Dies unterstreicht die visuellen Analysefähigkeiten des Modells, die auf Gemini 2.5 Pro basieren.
Leistung, Optimierung und Verfügbarkeit
Gemini 2.5 Computer Use ist laut Google primär für die Nutzung in Webbrowsern optimiert. Interne Benchmarks zeigen jedoch vielversprechende Ergebnisse für die Steuerung von mobilen Benutzeroberflächen, getestet mit dem "AndroidWorld"-Benchmark. Eine Optimierung für die Steuerung auf Betriebssystemebene (Desktop OS) ist derzeit noch nicht erfolgt.
Im direkten Vergleich mit Konkurrenzmodellen von Anbietern wie Claude und OpenAI zeigt das Google-Modell eine starke Leistung bei der Steuerung von Web- und mobilen Oberflächen. Google hebt hervor, dass es eine führende Qualität bei der Browser-Steuerung mit der niedrigsten Latenz erreicht.
Das Modell wird intern bei Google bereits zur Beschleunigung der Softwareentwicklung eingesetzt, indem es UI-Tests automatisiert. Für externe Entwickler, die an Assistenten oder Werkzeugen zur Workflow-Automatisierung arbeiten, gibt es ein Early-Access-Programm.
Seit heute ist Gemini 2.5 Computer Use in einer öffentlichen Vorschau über die Gemini API in Google AI Studio und Vertex AI zugänglich. Interessierte können es zudem in einer von Browserbase gehosteten Demo-Umgebung ausprobieren.





