Google hat eine bedeutende Aktualisierung für sein KI-Videowerkzeug „Flow“ angekündigt. Durch das Update auf das zugrundeliegende Modell Veo 3.1 erhalten Nutzer erweiterte Bearbeitungsmöglichkeiten, die es ermöglichen, Beleuchtung und Schatten in KI-generierten Videos präzise anzupassen. Zudem werden neue Funktionen zur Erzeugung von Audioinhalten eingeführt, was die Videos noch realistischer macht und die Grenze zwischen künstlich erstellten und realen Aufnahmen weiter verwischt.
Wichtige Erkenntnisse
- Google Flow erhält neue Werkzeuge zur Bearbeitung von Licht und Schatten in KI-Videos.
- Die Aktualisierung, Veo 3.1, integriert die automatische Erzeugung von passendem Audio.
- Neue Funktionen wie „Ingredients to Video“ und „Scene Extension“ kombinieren Bild- und Ton-Erzeugung.
- Die neuen Features sind als kostenpflichtige Vorschau über die Gemini API für Entwickler verfügbar.
- Eine zukünftige Funktion soll das nahtlose Entfernen von Objekten aus Videos ermöglichen.
Verbesserte visuelle Kontrolle für mehr Realismus
Die jüngste Weiterentwicklung von Googles KI-Filmerstellungstool Flow konzentriert sich auf die visuelle Qualität und den Realismus der erzeugten Videos. Mit dem Update auf Veo 3.1 wird eine der größten Herausforderungen bei der KI-Videogenerierung angegangen: die realistische Darstellung von Lichtverhältnissen. Nutzer können nun die Beleuchtung einer Szene nachträglich verändern und Schatten hinzufügen oder anpassen.
Diese Funktion ist entscheidend, um Videos glaubwürdiger erscheinen zu lassen. Bisher wirkten viele KI-generierte Clips oft flach oder unnatürlich beleuchtet. Die Möglichkeit, Lichtquellen zu simulieren und die daraus resultierenden Schatten korrekt zu platzieren, verleiht den Szenen mehr Tiefe und Authentizität.
Laut Google soll diese verbesserte Kontrolle dazu führen, dass die Videos auf den ersten Blick kaum noch von echten Aufnahmen zu unterscheiden sind. Die Technologie zielt darauf ab, kreativen Profis Werkzeuge an die Hand zu geben, die bisher nur mit aufwendiger 3D-Software und Postproduktion möglich waren.
Was ist Google Veo?
Veo ist Googles fortschrittlichstes Text-zu-Video-Modell und die technologische Grundlage für das Werkzeug Flow. Es konkurriert direkt mit Modellen wie Sora von OpenAI. Veo ist darauf spezialisiert, aus Texteingaben und Bildern hochauflösende, kohärente Videoclips zu erstellen und dabei komplexe Anweisungen zu Stil und Inhalt zu verstehen.
Die Integration von Audio in die Videogenerierung
Eine weitere wesentliche Neuerung des Veo 3.1 Updates ist die Integration von Audioerzeugung. Bisher mussten Tonspuren separat erstellt und hinzugefügt werden. Nun können mehrere Funktionen von Flow Videos direkt mit einer passenden Geräuschkulisse generieren, was den Produktionsprozess erheblich vereinfacht.
Diese neuen audio-fähigen Funktionen umfassen mehrere kreative Ansätze:
- Ingredients to Video: Nutzer können drei Referenzbilder als „Zutaten“ vorgeben. Die KI erstellt daraus ein Video, das die visuellen Elemente kombiniert, und generiert gleichzeitig eine passende Audiospur.
- Frames to Video: Diese Funktion erzeugt ein Video, das eine Brücke zwischen einem Start- und einem Endbild schlägt. Die KI berechnet die Zwischensequenzen und unterlegt den gesamten Clip mit relevanten Geräuschen.
- Scene Extension: Mit diesem Werkzeug kann ein bestehender Clip erweitert werden. Die KI analysiert die letzte Sekunde eines Videos und generiert eine Fortsetzung von bis zu einer Minute Länge – ebenfalls inklusive passender Audiospur.
Die automatische Erstellung von Audio ist ein wichtiger Schritt, um den Arbeitsaufwand für Content-Ersteller zu reduzieren. Statt nach passenden Soundeffekten oder Hintergrundmusik suchen zu müssen, liefert die KI eine kontextbezogene Tonspur, die auf den visuellen Inhalt abgestimmt ist.
Schnellere und einfachere Produktion
Durch die Kombination von Video- und Audioerzeugung in einem Schritt können Konzepte und Ideen schneller visualisiert werden. Dies ist besonders für die Erstellung von Prototypen, Social-Media-Inhalten oder Storyboards von Vorteil, wo Geschwindigkeit eine entscheidende Rolle spielt.
Verfügbarkeit und technische Details
Die neuen Funktionen, die Teil des Veo 3.1 Updates sind, werden nicht sofort für alle Nutzer verfügbar sein. Google stellt sie zunächst im Rahmen einer „kostenpflichtigen Vorschau“ (paid preview) bereit. Der Zugang erfolgt über die Gemini API, was sich primär an Entwickler und Unternehmen richtet, die die Technologie in ihre eigenen Anwendungen und Arbeitsabläufe integrieren möchten.
Zusätzlich sind die erweiterten Funktionen in der Gemini-App aktiviert. Die Kosten für die Nutzung von Veo 3.1 entsprechen denen des Vorgängermodells Veo 3. Google hat keine Preiserhöhung für die neuen Features angekündigt, was den Zugang für bestehende Nutzer erleichtert.
Diese schrittweise Einführung ermöglicht es Google, Feedback von einer technisch versierten Zielgruppe zu sammeln, bevor die Werkzeuge möglicherweise einer breiteren Öffentlichkeit zugänglich gemacht werden. Der Fokus auf Entwickler deutet darauf hin, dass Google Flow als eine professionelle Plattform für kreative Industrien positionieren möchte.
Ein Ausblick auf zukünftige Funktionen
Google gab auch einen Einblick in die zukünftige Entwicklung von Flow. Eine der am meisten erwarteten Funktionen ist ein Werkzeug zur Objektentfernung. Laut der Ankündigung sollen Nutzer bald in der Lage sein, „alles“ aus einem Video zu entfernen.
Das Werkzeug wird den Hintergrund und die Szene so umstrukturieren, dass es aussieht, als wäre das Objekt nie da gewesen.
Diese Technologie, oft als „Inpainting“ für Videos bezeichnet, geht weit über einfache Retuschen hinaus. Die KI muss nicht nur das Objekt entfernen, sondern auch den verdeckten Hintergrund intelligent und kontextbezogen rekonstruieren. Dies erfordert ein tiefes Verständnis der räumlichen Zusammenhänge und der Bewegung innerhalb der Szene.
Sollte diese Funktion wie beschrieben umgesetzt werden, hätte sie weitreichende Auswirkungen auf die Postproduktion. Das aufwendige manuelle Entfernen von unerwünschten Personen, Gegenständen oder Produktionsfehlern könnte damit auf wenige Klicks reduziert werden. Gleichzeitig wirft eine solche Technologie erneut Fragen zur Authentizität von Videoinhalten und dem Potenzial für Manipulation auf.





