Forscher von Meta haben ein KI-Modell namens V-JEPA entwickelt, das grundlegende physikalische Gesetze ausschließlich durch das Ansehen von Videos erlernt. Ähnlich wie ein menschliches Baby zeigt das System Überraschung, wenn es mit Szenarien konfrontiert wird, die den gelernten Prinzipien widersprechen, wie etwa der Objektpermanenz.
Diese Fähigkeit, ein intuitives Verständnis der Welt zu entwickeln, ohne auf vordefinierte physikalische Regeln angewiesen zu sein, stellt einen bedeutenden Fortschritt für die künstliche Intelligenz dar. Das Modell könnte die Entwicklung von Robotern und autonomen Systemen beschleunigen, die sich sicher und effizient in realen Umgebungen bewegen müssen.
Wichtige Erkenntnisse
- Meta hat die KI V-JEPA entwickelt, die physikalische Konzepte durch Videoanalyse lernt.
- Das System reagiert mit messbarer "Überraschung" auf physikalisch unmögliche Ereignisse.
- Anstatt einzelne Pixel zu analysieren, nutzt die KI abstrakte Darstellungen (latente Repräsentationen), um sich auf wesentliche Informationen zu konzentrieren.
- In Tests zur Erkennung physikalischer Plausibilität erreichte V-JEPA eine Genauigkeit von fast 98 %.
- Die Technologie hat Potenzial für die Robotik, stößt aber bei der Gedächtnisleistung noch an Grenzen.
Eine KI mit kindlicher Neugier
Menschliche Säuglinge entwickeln bereits in den ersten Lebensmonaten ein grundlegendes Verständnis für die Welt. Sie lernen zum Beispiel, dass ein Objekt, das hinter einem Schirm verschwindet, weiterhin existiert – ein Konzept, das als Objektpermanenz bekannt ist. Wenn dieses Objekt nicht wieder auftaucht, zeigen sie Überraschung. Genau dieses Verhalten konnten Forscher nun bei einem KI-Modell beobachten.
Das von Meta entwickelte System, genannt Video Joint Embedding Predictive Architecture (V-JEPA), wurde darauf trainiert, Videos zu analysieren, ohne explizite Anweisungen über physikalische Gesetze zu erhalten. Es lernt ausschließlich durch Beobachtung, ähnlich wie ein Kind, das seine Umgebung erkundet.
Micha Heilbron, ein Kognitionswissenschaftler an der Universität Amsterdam, bezeichnet die Ergebnisse als „super interessant“. Er betont: „Wir wissen aus der Entwicklungsforschung, dass Babys nicht viel Exposition benötigen, um diese Art von intuitiver Physik zu lernen. Es ist überzeugend, dass sie zeigen, dass dies überhaupt erlernbar ist.“
Abstraktion statt Pixelanalyse
Traditionelle KI-Systeme zur Videoanalyse arbeiten oft im sogenannten „Pixelraum“. Das bedeutet, sie behandeln jeden einzelnen Bildpunkt als gleich wichtig. Dieser Ansatz hat erhebliche Nachteile. Bei der Analyse einer Straßenszene könnte ein solches Modell von irrelevanten Details wie dem Rauschen von Blättern im Wind abgelenkt werden und wichtige Informationen wie die Farbe einer Ampel oder die Position anderer Fahrzeuge übersehen.
V-JEPA verfolgt einen anderen Ansatz. Statt Pixel vorherzusagen, arbeitet das Modell mit abstrakten, sogenannten „latenten Repräsentationen“. Diese erfassen nur die wesentlichen Merkmale eines Objekts oder einer Szene. Ein Zylinder wird beispielsweise nicht als eine Ansammlung von tausenden Pixeln gespeichert, sondern durch wenige Zahlen, die seine Höhe, Breite, Ausrichtung und Position beschreiben.
Was sind latente Repräsentationen?
In der künstlichen Intelligenz sind latente Repräsentationen eine verdichtete, abstrakte Darstellung von Daten. Ein KI-Modell lernt, die wichtigsten Merkmale aus komplexen Eingaben wie Bildern oder Videos zu extrahieren. Dadurch kann es sich auf das Wesentliche konzentrieren und irrelevante Details ignorieren, was das Lernen effizienter und robuster macht.
Die Funktionsweise von V-JEPA
Die Architektur von V-JEPA besteht im Kern aus drei Komponenten: zwei Kodierern (Encoder) und einem Prädiktor. Der Lernprozess funktioniert vereinfacht wie folgt:
- Das System erhält Videobilder, bei denen bestimmte Bereiche maskiert, also ausgeblendet werden.
- Ein erster Encoder wandelt diese unvollständigen Bilder in eine latente Repräsentation um.
- Parallel dazu wandelt ein zweiter Encoder die vollständigen, unmaskierten Originalbilder in eine weitere latente Repräsentation um.
- Der Prädiktor hat nun die Aufgabe, allein auf Basis der Repräsentation der maskierten Bilder die Repräsentation der vollständigen Bilder vorherzusagen.
Durch diesen Prozess lernt die KI, fehlende Informationen auf einer abstrakten Ebene zu ergänzen. Sie muss nicht jeden einzelnen Pixel erraten, sondern das konzeptionelle „Wesen“ dessen, was sich hinter der Maske verbirgt. „Dies ermöglicht es dem Modell, unnötige Informationen zu verwerfen und sich auf wichtigere Aspekte des Videos zu konzentrieren“, erklärt Quentin Garrido, ein Forschungswissenschaftler bei Meta.
„Das Verwerfen unnötiger Informationen ist sehr wichtig und etwas, das V-JEPA effizient zu tun versucht.“ – Quentin Garrido, Meta
Überzeugende Ergebnisse im Physik-Test
Um die Fähigkeiten des Modells zu überprüfen, nutzten die Forscher den sogenannten IntPhys-Benchmark. Dieser Test konfrontiert eine KI mit Videos, die entweder physikalisch plausible oder unplausible Aktionen zeigen. V-JEPA erreichte hierbei eine beeindruckende Genauigkeit von fast 98 %.
Im Vergleich dazu schnitt ein bekanntes Modell, das auf Pixel-Ebene arbeitet, nur geringfügig besser als der Zufall ab. Dies zeigt die Überlegenheit des abstrakten Ansatzes von V-JEPA.
Messbare Überraschung
Die „Überraschung“ der KI wird mathematisch als Vorhersagefehler gemessen. Wenn ein Video von den erlernten physikalischen Regeln abweicht – zum Beispiel, wenn ein Ball hinter einem Hindernis verschwindet und nicht wieder auftaucht –, steigt der Fehler zwischen der Vorhersage des Modells und der tatsächlichen Beobachtung sprunghaft an. Diese Reaktion ähnelt der intuitiven Reaktion von Kleinkindern.
Die nächste Generation und ihre Grenzen
Das Team bei Meta hat bereits eine weiterentwickelte Version, V-JEPA 2, vorgestellt. Dieses Modell verfügt über 1,2 Milliarden Parameter und wurde mit 22 Millionen Videos trainiert. Es wurde bereits erfolgreich in der Robotik eingesetzt, um die Aktionen eines Roboters zu planen. Bemerkenswert ist, dass für die Anpassung an diese Aufgabe nur etwa 60 Stunden an spezifischen Roboterdaten erforderlich waren.
Trotz der Fortschritte stößt die Technologie noch an ihre Grenzen. Für V-JEPA 2 wurde ein schwierigerer Test namens IntPhys 2 entwickelt. Hier schnitten sowohl V-JEPA 2 als auch andere Modelle nur unwesentlich besser als der Zufall ab. Ein Grund dafür ist laut Garrido die begrenzte Gedächtnisleistung des Modells.
Die KI kann derzeit nur wenige Sekunden eines Videos verarbeiten und vorhersagen. Längere Zusammenhänge gehen verloren. Garrido vergleicht diese Einschränkung treffend: „In gewissem Sinne erinnert das Gedächtnis des Modells an das eines Goldfisches.“
Ausblick und offene Fragen
Obwohl V-JEPA einen wichtigen Schritt darstellt, gibt es noch Herausforderungen. Der Computer-Neurowissenschaftler Karl Friston vom University College London merkt an, dass dem Modell eine entscheidende Komponente fehlt: die Fähigkeit, Unsicherheit zu quantifizieren. Wenn die verfügbaren Informationen nicht ausreichen, um eine sichere Vorhersage zu treffen, kann V-JEPA diesen Grad der Ungewissheit nicht ausdrücken.
Dennoch ist der Ansatz vielversprechend. Er zeigt, dass KI-Systeme ein grundlegendes Weltverständnis entwickeln können, das für autonome Roboter und Fahrzeuge unerlässlich ist. Die Fähigkeit, intuitiv zu verstehen, wie Objekte interagieren, ist die Grundlage für eine sichere und intelligente Navigation in einer komplexen Welt.





