Google hat seine KI-Anwendung Gemini um eine Funktion zur Musikgenerierung erweitert. Nutzer können nun mithilfe von Texteingaben oder Bildern eigene, 30-sekündige Musikstücke inklusive Gesang und Text erstellen lassen. Die Technologie basiert auf dem neuen KI-Modell Lyria 3 von Google DeepMind.
Das Wichtigste in Kürze
- Google Gemini kann jetzt vollständige Songs mit Text und Gesang aus einfachen Anweisungen erstellen.
- Die Funktion nutzt das neue KI-Modell Lyria 3, das mehr Kontrolle über Stil und Tempo bietet.
- Erstellte Musikstücke sind 30 Sekunden lang und werden mit einem digitalen Wasserzeichen (SynthID) versehen.
- Die Funktion ist für Nutzer ab 18 Jahren in mehreren Sprachen, darunter auch Deutsch, verfügbar.
KI-Musik direkt in der Gemini-App
Die neue Funktion zur Musikerstellung ist direkt in das Menü „Tools“ der Gemini-App integriert. Anwender können dort ihre kreativen Ideen formulieren, um ein einzigartiges Musikstück zu erhalten. Die Eingabeaufforderungen, auch Prompts genannt, können dabei sehr unterschiedlich ausfallen.
Es ist möglich, ein bestimmtes Genre, eine Stimmung oder sogar eine persönliche Erinnerung zu beschreiben. Ein Beispiel für eine solche Anweisung könnte lauten: „Erstelle einen fröhlichen Afrobeat-Song über Kindheitserinnerungen und die Kochkünste meiner Mutter.“ Die künstliche Intelligenz interpretiert diese Vorgaben und komponiert daraufhin einen passenden Track.
Von der Idee zum fertigen Song
Der Prozess ist bewusst einfach gehalten. Neben reinen Textanweisungen können Nutzer auch Fotos oder kurze Videoclips hochladen. Gemini analysiert das visuelle Material und komponiert ein Musikstück, das die Stimmung der Bilder einfangen soll. So kann beispielsweise aus einer Reihe von Urlaubsfotos ein passender Soundtrack für eine Diashow entstehen.
Das Ergebnis ist jeweils ein 30-sekündiger Song. Zusätzlich zur Musik generiert die KI auch ein passendes Cover-Artwork für den Track, wofür die Technologie „Nano Banana“ zum Einsatz kommt. Die fertigen Stücke können anschließend heruntergeladen oder über einen Link mit anderen geteilt werden.
Die Technologie hinter den Klängen: Lyria 3
Das Herzstück der neuen Funktion ist Lyria 3, das laut Google DeepMind fortschrittlichste Modell zur Musikgenerierung des Unternehmens. Im Vergleich zu früheren Versionen ist ein entscheidender Fortschritt die Fähigkeit, nicht nur Melodien, sondern auch passende Songtexte und Gesangsstimmen automatisch zu erzeugen.
Kontrolle für Kreative
Lyria 3 gibt Nutzern erweiterte Kontrollmöglichkeiten. Elemente wie Musikstil, Gesang, Tempo und andere musikalische Parameter können direkt in der Eingabeaufforderung beeinflusst werden, um das Ergebnis präziser an die eigenen Vorstellungen anzupassen.
Das Modell wurde darauf trainiert, originelle Inhalte zu schaffen und nicht, bekannte Künstler zu imitieren. Google betont, dass bei der Entwicklung des Modells Urheberrechte und Partnervereinbarungen berücksichtigt wurden. Gibt ein Nutzer den Namen eines Künstlers an, soll dies lediglich als allgemeine kreative Inspiration für den Stil oder die Stimmung dienen, nicht als Anweisung zur Kopie.
Urheberrecht und Sicherheit im Fokus
Die Erstellung von Inhalten durch künstliche Intelligenz wirft unweigerlich Fragen zum Urheberrecht auf. Google hat nach eigenen Angaben Vorkehrungen getroffen, um die Rechte von Künstlern zu schützen. So sind Filter implementiert, die die generierten Ergebnisse mit bestehenden Musikstücken abgleichen, um unbeabsichtigte Kopien zu vermeiden.
„Wir sind uns bewusst, dass unser Ansatz möglicherweise nicht unfehlbar ist. Daher können Sie Inhalte melden, die möglicherweise Ihre Rechte oder die Rechte Dritter verletzen.“
Um die Herkunft der KI-generierten Musik transparent zu machen, wird jeder Track mit einem unsichtbaren digitalen Wasserzeichen versehen. Diese Technologie namens SynthID ermöglicht es, eine Audiodatei zu überprüfen und festzustellen, ob sie mit der KI von Google erstellt wurde. Dieses Verfahren wird bereits für Bilder und Videos angewendet.
Was ist SynthID?
SynthID ist eine von Google DeepMind entwickelte Technologie, die ein digitales Wasserzeichen direkt in die Daten einer KI-generierten Datei einbettet. Dieses Wasserzeichen ist für das menschliche Auge oder Ohr nicht wahrnehmbar, kann aber von speziellen Algorithmen ausgelesen werden. Es bleibt auch nach Komprimierung oder leichten Bearbeitungen der Datei erhalten und dient als Nachweis für den künstlichen Ursprung des Inhalts.
Verfügbarkeit und Zukunftspläne
Die Musikfunktion in Gemini steht ab sofort allen Nutzern zur Verfügung, die mindestens 18 Jahre alt sind. Der Dienst wird in mehreren Sprachen angeboten, darunter Englisch, Deutsch, Spanisch, Französisch, Japanisch und Portugiesisch.
Nutzer von kostenpflichtigen Abonnements wie Google AI Plus, Pro und Ultra erhalten höhere Nutzungslimits als Nutzer der kostenfreien Version. Für die Zukunft plant Google, die Funktion auf weitere Sprachen auszuweiten und die Qualität der generierten Musikstücke kontinuierlich zu verbessern.





