Google hat ein neues Prämienprogramm ins Leben gerufen, das sich gezielt auf die Sicherheit seiner Produkte mit künstlicher Intelligenz (KI) konzentriert. Sicherheitsforscher und ethische Hacker können Belohnungen von bis zu 30.000 US-Dollar erhalten, wenn sie schwerwiegende Schwachstellen aufdecken. Das Programm zielt insbesondere darauf ab, sogenannte „Schurkenaktionen“ zu identifizieren, bei denen KI-Systeme zu unerwünschten oder schädlichen Handlungen verleitet werden können.
Wichtige Informationen
- Google hat ein spezielles Bug-Bounty-Programm für seine KI-Produkte gestartet.
- Die höchsten Prämien von bis zu 30.000 US-Dollar gibt es für das Aufdecken von „Schurkenaktionen“ (rogue actions).
- Das Programm unterscheidet klar zwischen sicherheitsrelevanten Fehlern und unerwünschten Inhalten wie Halluzinationen.
- In den letzten zwei Jahren wurden bereits über 430.000 US-Dollar an Forscher für das Finden von KI-Schwachstellen ausgezahlt.
Ein neues Kapitel der KI-Sicherheit
Die schnelle Entwicklung generativer KI-Technologien bringt neue und komplexe Sicherheitsherausforderungen mit sich. Um diesen zu begegnen, hat Google sein bestehendes Vulnerability Reward Program (VRP) um eine spezielle Kategorie für KI erweitert. Dieser Schritt formalisiert die Suche nach Sicherheitslücken in Produkten wie Gemini, der Google Suche und den Workspace-Anwendungen.
Das Unternehmen möchte damit proaktiv potenzielle Angriffsvektoren schließen, die durch die Integration von großen Sprachmodellen (LLMs) entstehen. Anstatt nur auf interne Tests zu vertrauen, setzt Google auf die kollektive Intelligenz der globalen Cybersicherheits-Community.
Hintergrund der Bug-Bounty-Programme
Bug-Bounty-Programme sind in der Tech-Branche ein etabliertes Instrument. Unternehmen bieten finanzielle Anreize für Personen, die Sicherheitslücken in ihrer Software oder ihren Systemen finden und verantwortungsvoll melden. Dies ermöglicht es den Unternehmen, die Fehler zu beheben, bevor sie von Kriminellen ausgenutzt werden können. Googles neues Programm ist eines der ersten, das sich so spezifisch auf die Risiken generativer KI konzentriert.
Was ist eine „Schurkenaktion“?
Im Zentrum des neuen Programms stehen Fehler, die zu „Schurkenaktionen“ führen. Damit sind nicht einfache Falschaussagen oder Halluzinationen der KI gemeint, sondern konkrete, schädliche Aktionen, die durch die Manipulation des KI-Modells ausgelöst werden.
Google nennt hierfür konkrete Beispiele, um die Art der gesuchten Schwachstellen zu verdeutlichen:
- Indirekte Befehlseinschleusung: Ein Angreifer könnte eine speziell präparierte E-Mail oder ein Kalenderereignis erstellen. Wenn die KI dieses Dokument verarbeitet, könnte sie einen versteckten Befehl ausführen, zum Beispiel das Entsperren einer smarten Haustür, die mit Google Home verbunden ist.
- Datenexfiltration: Eine andere gefährliche Schwachstelle wäre es, wenn ein Angreifer die KI dazu bringen könnte, private Daten zusammenzufassen und an eine externe Adresse zu senden. Beispielsweise könnte ein Befehl die KI anweisen, alle E-Mails eines Nutzers zu durchsuchen, eine Zusammenfassung zu erstellen und diese an den Angreifer zu übermitteln.
Solche Angriffe nutzen die Fähigkeit der KI aus, Informationen zu verarbeiten und Aktionen in anderen Systemen auszulösen. Sie stellen eine erhebliche Bedrohung für die Privatsphäre und Sicherheit der Nutzer dar.
Bereits 430.000 Dollar ausgezahlt
Schon vor dem offiziellen Start dieses speziellen Programms hat Google in den letzten zwei Jahren über 430.000 US-Dollar an Forscher gezahlt, die Schwachstellen in KI-gestützten Funktionen gefunden haben. Diese Summe unterstreicht die Bedeutung und das Engagement des Unternehmens für die Absicherung seiner KI-Systeme.
Klare Abgrenzung zu Inhalts- und Qualitätsproblemen
Google betont, dass nicht jedes unerwünschte Verhalten einer KI automatisch eine meldepflichtige Sicherheitslücke darstellt. Das Unternehmen hat eine klare Trennlinie gezogen, um die Ressourcen der Sicherheitsforscher auf die kritischsten Bereiche zu lenken.
Was nicht unter das Prämienprogramm fällt
Folgende Probleme sollen nicht über das Bug-Bounty-Programm gemeldet werden:
- Halluzinationen: Wenn die KI Fakten erfindet oder unsinnige Antworten gibt.
- Generierung schädlicher Inhalte: Das Erzeugen von Hassrede, urheberrechtlich geschütztem Material oder anderen unangemessenen Inhalten.
Für solche Fälle bittet Google die Nutzer, die integrierten Feedback-Kanäle direkt im jeweiligen Produkt zu verwenden. Laut Google ermöglicht dieses Vorgehen den KI-Sicherheitsteams, das Verhalten des Modells zu analysieren und langfristige Verbesserungen am Training des Modells vorzunehmen. Es handelt sich hierbei um Qualitätsprobleme des Modells, nicht um ausnutzbare Sicherheitslücken im klassischen Sinne.
„Indem wir diese Probleme über das Produktfeedback kanalisieren, können unsere KI-Sicherheitsteams das Verhalten des Modells diagnostizieren und die notwendigen langfristigen, modellweiten Sicherheitstrainings implementieren.“
Die Struktur der Belohnungen
Die Höhe der Prämie hängt von der Schwere der gefundenen Schwachstelle und dem betroffenen Produkt ab. Google hat eine gestaffelte Struktur eingeführt, um die Anreize entsprechend zu gewichten.
Die höchste Prämie von 20.000 US-Dollar wird für das Aufdecken von „Schurkenaktionen“ in den wichtigsten Google-Produkten gezahlt. Dazu gehören:
- Google Suche
- Gemini Apps (ehemals Bard)
- Zentrale Workspace-Anwendungen wie Gmail und Google Drive
Boni können Prämie auf 30.000 Dollar erhöhen
Zusätzlich zur Grundprämie können Forscher Boni erhalten. Ein Bonus für die Qualität des Berichts und ein „Neuheitsbonus“ für besonders kreative oder bisher unbekannte Angriffsmethoden können die Gesamtauszahlung auf bis zu 30.000 US-Dollar steigern.
Für weniger kritische Produkte wie Jules oder NotebookLM fallen die Prämien niedriger aus. Ebenso werden geringere Belohnungen für weniger schwerwiegende Angriffe gezahlt, wie zum Beispiel das Stehlen von geheimen Modellparametern, die für das Training der KI verwendet werden.
CodeMender: Googles KI zur automatischen Fehlerbehebung
Parallel zur Ankündigung des neuen Prämienprogramms stellte Google auch ein internes Werkzeug namens CodeMender vor. Dabei handelt es sich um einen KI-Agenten, der darauf spezialisiert ist, Sicherheitslücken in Programmcode automatisch zu finden und zu beheben.
Laut Google wurde CodeMender bereits erfolgreich eingesetzt, um 72 Sicherheitspatches für verschiedene Open-Source-Projekte zu erstellen. Jeder von der KI vorgeschlagene Patch wird vor der Implementierung von einem menschlichen Sicherheitsexperten überprüft. Dieses Werkzeug zeigt, dass Google KI nicht nur als potenzielle Gefahrenquelle, sondern auch als leistungsstarkes Instrument zur Verbesserung der Cybersicherheit betrachtet.
Die Kombination aus menschlicher Expertise durch das Bug-Bounty-Programm und automatisierter Hilfe durch Werkzeuge wie CodeMender stellt Googles zweigleisige Strategie dar, um die Sicherheit im Zeitalter der künstlichen Intelligenz zu gewährleisten.





