Eine umfassende internationale Studie unter Beteiligung von 22 öffentlich-rechtlichen Rundfunkanstalten hat alarmierende Ergebnisse zutage gefördert: Führende KI-Chatbots wie ChatGPT, Copilot und Gemini liefern in fast der Hälfte aller Fälle fehlerhafte oder irreführende Informationen zu aktuellen Nachrichten. Die Untersuchung zeigt systemische Schwächen bei der Genauigkeit und Quellenangabe, die das Vertrauen der Öffentlichkeit in digitale Informationsquellen untergraben könnten.
Wichtige Erkenntnisse
- In 45 % der Fälle wiesen die Antworten von KI-Assistenten erhebliche Mängel auf.
- Bei 31 % der Antworten gab es gravierende Probleme mit der Quellenangabe.
- Jede fünfte Antwort (20 %) enthielt schwerwiegende sachliche Fehler.
- Die Studie wurde von 22 internationalen Medienorganisationen in 18 Ländern durchgeführt.
Ein systematisches Problem der Desinformation
Die Nutzung von künstlicher Intelligenz zur Informationsbeschaffung nimmt weltweit zu. Insbesondere jüngere Menschen greifen immer häufiger auf Chatbots zurück, um sich über das Weltgeschehen zu informieren. Laut dem Digital News Report 2025 des Reuters Institute nutzen bereits 7 % der Onlinenutzer KI-Chatbots für Nachrichten, bei den unter 25-Jährigen sind es sogar 15 %.
Die aktuelle Untersuchung, koordiniert von der Europäischen Rundfunkunion (EBU), deckt jedoch auf, dass diese Technologie noch weit davon entfernt ist, eine verlässliche Nachrichtenquelle zu sein. Journalisten testeten die vier populären KI-Assistenten ChatGPT, Microsoft Copilot, Google Gemini und Perplexity AI mit gängigen Nachrichtenfragen. Das Ergebnis ist ernüchternd: Fast die Hälfte aller 3.000 analysierten Antworten war mangelhaft.
Methodik der Untersuchung
Die Studie folgte einer Methodik, die ursprünglich von der BBC im Februar 2025 entwickelt wurde. Journalisten aus 18 Ländern stellten den vier KI-Modellen Fragen zu aktuellen Ereignissen, wie zum Beispiel „Was ist der Ukraine-Mineralien-Deal?“ oder „Kann Trump für eine dritte Amtszeit kandidieren?“. Die Antworten wurden anschließend von den Experten auf Genauigkeit, Quellenangabe, Kontextualisierung und die Fähigkeit, zwischen Fakten und Meinungen zu unterscheiden, überprüft, ohne zu wissen, welcher Chatbot die Antwort generiert hatte.
Fehler in Fakten und Quellen
Die Mängel in den KI-Antworten sind vielfältig. In 20 % der Fälle wurden schwerwiegende sachliche Fehler identifiziert. So wurden beispielsweise Politiker in Ämtern genannt, die sie bereits vor Wochen oder Monaten an ihre Nachfolger übergeben hatten. Ein konkretes Beispiel aus dem deutschen Test war die Nennung von Olaf Scholz als Bundeskanzler, obwohl Friedrich Merz das Amt bereits einen Monat zuvor übernommen hatte. Ähnliche Fehler traten bei internationalen Organisationen auf, wo Jens Stoltenberg noch als NATO-Generalsekretär bezeichnet wurde, nachdem Mark Rutte die Position bereits angetreten hatte.
Ein weiteres zentrales Problem ist die mangelhafte Quellenangabe, die in 31 % der Antworten festgestellt wurde. Oftmals wurden Informationen ohne klare Herkunftsangabe präsentiert oder Quellen falsch zugeordnet. Dies macht es für Nutzer unmöglich, die Richtigkeit der Informationen selbst zu überprüfen und untergräbt die journalistische Praxis der Transparenz.
Leistung der einzelnen Chatbots
Obwohl alle getesteten Modelle signifikante Probleme aufwiesen, schnitt Google Gemini besonders schlecht ab. Bei 72 % der von Gemini generierten Antworten wurden erhebliche Mängel bei der Quellenangabe festgestellt. Dies bestätigt frühere Ergebnisse einer ähnlichen BBC-Studie, bei der Gemini und Microsoft Copilot als die schwächsten Performer eingestuft wurden.
Folgen für das öffentliche Vertrauen
Experten warnen vor den weitreichenden Konsequenzen dieser technologischen Mängel. Die systematische Verzerrung von Nachrichten durch KI-Systeme stellt eine Gefahr für das öffentliche Vertrauen und die demokratische Teilhabe dar.
„Diese Forschung zeigt schlüssig, dass diese Fehler keine Einzelfälle sind. Sie sind systemisch, grenzüberschreitend und mehrsprachig, und wir glauben, dass dies das öffentliche Vertrauen gefährdet. Wenn die Menschen nicht wissen, was sie glauben sollen, vertrauen sie am Ende gar nichts mehr, und das kann die demokratische Teilhabe beeinträchtigen.“
Obwohl im Vergleich zu einer acht Monate zuvor durchgeführten BBC-Studie leichte Verbesserungen zu verzeichnen sind, bleibt das Fehlerniveau besorgniserregend hoch. Die Entwickler der KI-Modelle betonen zwar ihre Bemühungen, Verlage zu unterstützen und Nutzern qualitativ hochwertige Inhalte durch Zusammenfassungen und Quellenangaben zugänglich zu machen, doch die Realität sieht laut der Studie anders aus.
Forderungen an Politik und Tech-Unternehmen
Angesichts der Ergebnisse fordern die beteiligten Medienorganisationen die nationalen Regierungen und die EU auf, zu handeln. Sie drängen darauf, bestehende Gesetze zur Informationsintegrität, zu digitalen Diensten und zur Medienvielfalt konsequent durchzusetzen. Eine unabhängige Überwachung von KI-Assistenten müsse angesichts der schnellen Entwicklung neuer Modelle zur Priorität werden.
Gleichzeitig wurde die Kampagne „Facts In: Facts Out“ ins Leben gerufen. Diese Initiative, getragen von der EBU und anderen internationalen Medienverbänden, appelliert direkt an die KI-Unternehmen, mehr Verantwortung zu übernehmen.
- Die Kernforderung: Wenn vertrauenswürdige Fakten in die Systeme eingespeist werden, müssen auch Fakten wieder herauskommen.
- Das Ziel: Die Integrität der Nachrichten, die von KI-Systemen verarbeitet werden, darf nicht durch Verzerrung, falsche Zuschreibung oder Dekontextualisierung untergraben werden.
Die Debatte über die Rolle von KI im Nachrichtenkonsum steht erst am Anfang. Diese Studie liefert jedoch entscheidende Daten, die belegen, dass ein unkritischer Umgang mit den Antworten von Chatbots zu einem verzerrten Weltbild führen kann. Für Nutzer bedeutet dies, dass die von KI generierten Informationen weiterhin mit Vorsicht zu genießen sind und eine Überprüfung durch verlässliche, journalistische Quellen unerlässlich bleibt.





