Führende Technologiekonzerne wie Google DeepMind, Meta und Nvidia verlagern ihren Fokus von reinen Sprachmodellen auf sogenannte Weltmodelle. Diese fortschrittlichen KI-Systeme sollen lernen, die physische Welt zu verstehen, indem sie Videos und Roboterdaten analysieren. Dieser strategische Wandel erfolgt, da die Leistungssteigerungen bei großen Sprachmodellen (LLMs) nachlassen und die Branche nach neuen Wegen zur Entwicklung einer „Superintelligenz“ sucht.
Weltmodelle gelten als entscheidender Schritt für die Weiterentwicklung von autonomen Fahrzeugen, Robotik und intelligenten KI-Agenten. Sie werden mit riesigen Datenmengen aus realen oder simulierten Umgebungen trainiert, um physikalische Gesetze und Interaktionen zu erlernen. Experten sehen darin einen potenziellen Markt, der die globale Wirtschaft grundlegend verändern könnte.
Wichtige Erkenntnisse
- Große KI-Unternehmen wie Google, Meta und Nvidia investieren verstärkt in Weltmodelle, da die Fortschritte bei Sprachmodellen (LLMs) stagnieren.
- Weltmodelle lernen aus visuellen Daten wie Videos und Simulationen, um die physische Welt zu verstehen, anstatt nur Text zu verarbeiten.
- Anwendungsbereiche sind unter anderem Robotik, autonomes Fahren und die Erstellung interaktiver virtueller Umgebungen.
- Die Entwicklung erfordert enorme Mengen an Rechenleistung und Daten, stellt aber laut Experten einen Billionen-Dollar-Markt dar.
Die Grenzen der Sprachmodelle werden sichtbar
Die Technologie hinter populären Chatbots wie ChatGPT, die sogenannten Large Language Models (LLMs), stößt zunehmend an ihre Grenzen. Trotz massiver Investitionen von Unternehmen wie OpenAI, Google und xAI verlangsamen sich die sprunghaften Fortschritte zwischen den Modellgenerationen.
Diese Entwicklung veranlasst die führenden KI-Forschungslabore, alternative Ansätze zu verfolgen. Anstatt KI-Systeme nur mit Text zu füttern, sollen sie nun die Welt so lernen, wie es Menschen tun: durch Beobachtung und Interaktion mit ihrer Umgebung. Dies markiert eine grundlegende Neuausrichtung in der Suche nach künstlicher allgemeiner Intelligenz.
Was sind Weltmodelle?
Weltmodelle sind eine neue Art von KI-Architektur, die darauf ausgelegt ist, ein internes Verständnis der Funktionsweise der Welt zu entwickeln. Sie werden nicht primär mit Text, sondern mit riesigen Mengen an Videodaten oder Daten aus physikalischen Simulationen trainiert.
Vom digitalen zum physischen Verständnis
Während LLMs Experten für Sprache und digitale Informationen sind, konzentrieren sich Weltmodelle auf die Regeln der physischen Realität. Sie lernen Konzepte wie Schwerkraft, Objektpermanenz und Ursache-Wirkung-Beziehungen, indem sie visuelle Datenströme analysieren. Dieses Wissen ist die Grundlage für Roboter, die sicher in einer Fabrik navigieren, oder für selbstfahrende Autos, die komplexe Verkehrssituationen antizipieren.
Das Ziel ist es, dass die KI ein intuitives Modell der Realität aufbaut. Dieses Modell ermöglicht es ihr, die Konsequenzen von Handlungen vorherzusagen, ohne sie in der echten Welt ausprobieren zu müssen. Dies ist ein entscheidender Vorteil für die Sicherheit und Effizienz beim Training von autonomen Systemen.
Konkrete Projekte von Google, Meta und Nvidia
Die größten Namen der Tech-Branche haben in den letzten Monaten bereits bedeutende Fortschritte bei der Entwicklung von Weltmodellen vorgestellt.
Google DeepMind entwickelt interaktive Welten
Google DeepMind präsentierte kürzlich Genie 3, ein Modell, das interaktive Videowelten Bild für Bild generiert. Im Gegensatz zu früheren Ansätzen, die ganze Videos auf einmal erstellten, berücksichtigt Genie 3 vergangene Interaktionen des Nutzers. Dies ermöglicht die Schaffung dynamischer und reaktiver Umgebungen.
„KI ist immer noch sehr stark auf die digitale Domäne beschränkt. Indem wir Umgebungen bauen, die wie die reale Welt aussehen oder sich so verhalten, können wir KI viel skalierbarer trainieren, ohne die realen Konsequenzen eines Fehlers in der echten Welt.“Shlomi Fruchter, Co-Leiter von Genie 3 bei Google DeepMind
Meta setzt auf passives Lernen
Unter der Leitung von KI-Pionier Yann LeCun versucht Meta, das passive Lernen von Kindern zu imitieren. Das Modell V-JEPA wird mit unstrukturierten Videodaten trainiert, um grundlegende Zusammenhänge über die Welt zu lernen. LeCun ist ein bekannter Kritiker der LLM-zentrierten Forschung und argumentiert, dass diese Modelle niemals menschliches Planen und logisches Denken erreichen werden.
Die zweite Version von V-JEPA wurde im Juni veröffentlicht und wird bereits an Robotern getestet, um deren Fähigkeit zur Interaktion mit der physischen Umgebung zu verbessern.
Nvidia und die „physische KI“
Für Nvidia, den führenden Hersteller von KI-Chips, ist die Entwicklung von Weltmodellen ein zentraler Baustein für die nächste Wachstumsphase. CEO Jensen Huang spricht von einer Ära der „physischen KI“, die die Robotik revolutionieren wird.
Ein Markt von 100 Billionen Dollar?
Laut Rev Lebaredian, Vizepräsident bei Nvidia, könnte das Marktpotenzial für Weltmodelle enorm sein. Er schätzt es auf bis zu 100 Billionen US-Dollar, da diese Technologie die KI in Sektoren wie Fertigung, Gesundheitswesen und Logistik integriert.
Nvidias Omniverse-Plattform dient bereits heute dazu, hochrealistische Simulationen zu erstellen und auszuführen. Diese digitalen Zwillinge von Fabriken oder Städten sind ideale Trainingsumgebungen für Weltmodelle, die dort ohne Risiko lernen können.
Anwendungen über die Robotik hinaus
Die potenziellen Einsatzgebiete von Weltmodellen gehen weit über autonome Maschinen hinaus. Auch die Unterhaltungs- und Kreativbranche profitiert bereits von den neuen Möglichkeiten.
- Interaktive Spiele: Start-ups wie World Labs, gegründet von der KI-Forscherin Fei-Fei Li, entwickeln Modelle, die aus einem einzigen Bild eine komplette, begehbare 3D-Welt im Stil eines Videospiels generieren.
- Filmproduktion: Das Unternehmen Runway, das bereits Verträge mit Hollywood-Studios hat, nutzt Weltmodelle, um Filmszenen und Spielumgebungen zu erstellen. Charaktere und Handlungsstränge können dabei in Echtzeit generiert werden.
- Datengenerierung: Wenn reale Daten fehlen, können Weltmodelle Lücken füllen, indem sie plausible Umgebungen vorhersagen und generieren.
Cristóbal Valenzuela, CEO von Runway, erklärt, dass frühere Videomodelle die Physik oft ignorierten. Weltmodelle hingegen verfügen über ein grundlegendes Verständnis der Szene und können Bewegungen und Interaktionen realistischer darstellen.
Die Herausforderung der Datensammlung
Eine der größten Hürden beim Bau von Weltmodellen ist die Beschaffung riesiger Mengen an Daten über die physische Welt. Einige Unternehmen haben hier bereits einen strategischen Vorteil.
Niantic, das Unternehmen hinter dem Spiel Pokémon Go, hat über Jahre hinweg eine riesige Datenbank aufgebaut. Spieler haben weltweit anonymisierte 3D-Scans von öffentlichen Orten und Sehenswürdigkeiten beigesteuert. Das Unternehmen, das sich nach dem Verkauf des Spiels in Niantic Spatial umbenannt hat, verfügt so über Kartendaten von über 10 Millionen Standorten.
„Wir haben bei diesem Problem einen Vorsprung“, sagte John Hanke, CEO von Niantic Spatial. Diese einzigartigen Daten bilden die Grundlage für die Entwicklung eines umfassenden Weltmodells, das die reale Welt digital abbildet.
Obwohl Experten wie Yann LeCun davon ausgehen, dass es noch ein Jahrzehnt dauern könnte, bis Maschinen mit menschlicher Intelligenz Realität werden, sind sich alle einig: Weltmodelle sind der nächste entscheidende Schritt auf diesem Weg. Sie haben das Potenzial, die Fähigkeiten der künstlichen Intelligenz von der digitalen in die physische Welt zu übertragen und damit unzählige Industrien zu transformieren.





