Eine neue Studie, die die Fähigkeiten von Künstlicher Intelligenz (KI) in realen Arbeitsszenarien testet, kommt zu einem ernüchternden Ergebnis: Selbst die fortschrittlichsten KI-Agenten sind derzeit nicht in der Lage, typische Aufgaben von Freelancern zuverlässig zu erledigen. Die Ergebnisse stellen die weitverbreitete Annahme infrage, dass KI in naher Zukunft Büroangestellte in großem Stil ersetzen wird.
Der Test, der als Benchmark für die Automatisierung von wissensbasierten Aufgaben konzipiert wurde, zeigte erhebliche Lücken zwischen den theoretischen Fähigkeiten der KI und ihrer praktischen Anwendung. Die Maschinen scheiterten oft an Aufgaben, die menschliches Urteilsvermögen, Anpassungsfähigkeit und ein grundlegendes Verständnis von Kontext erfordern.
Wichtige Erkenntnisse
- Eine neue Benchmark-Studie zeigt, dass KI-Agenten bei der Ausführung von Online-Freelancer-Aufgaben schlecht abschneiden.
- Die Technologie kämpft mit Mehrdeutigkeiten, unvorhergesehenen Problemen und der Notwendigkeit, kontextbezogene Entscheidungen zu treffen.
- Experten sehen die Ergebnisse als wichtigen Realitätscheck, der den Hype um die massive Verdrängung von Büroangestellten durch KI relativiert.
- Die Entwicklung hin zu einer menschenähnlichen künstlichen allgemeinen Intelligenz (AGI) ist noch weit entfernt.
Ein Praxistest mit überraschenden Ergebnissen
Forscher haben eine neue Methode entwickelt, um die tatsächliche Leistungsfähigkeit von autonomen KI-Agenten zu messen. Anstatt sie nur in isolierten, kontrollierten Umgebungen zu testen, wurden die Systeme mit Aufgaben konfrontiert, die typischerweise auf Online-Plattformen an menschliche Freelancer vergeben werden. Diese Aufgaben umfassen Tätigkeiten wie Datenrecherche, das Verfassen einfacher E-Mails, das Ausfüllen von Online-Formularen oder die Planung von Terminen über verschiedene Anwendungen hinweg.
Das Ziel war es, herauszufinden, ob die KI-Systeme eine Aufgabe von Anfang bis Ende selbstständig bewältigen können, ohne menschliches Eingreifen. Das Ergebnis war eindeutig: Die meisten KI-Agenten scheiterten bereits an den ersten Hürden. Sie hatten Schwierigkeiten, sich auf unbekannten Webseiten zurechtzufinden, relevante von irrelevanten Informationen zu unterscheiden oder auf unerwartete Fehler, wie zum Beispiel ein Pop-up-Fenster, zu reagieren.
Leistung im Detail
Die Studie ergab, dass weniger als 10 % der getesteten KI-Agenten in der Lage waren, eine mehrstufige Aufgabe erfolgreich abzuschließen, die eine Interaktion mit mehr als zwei verschiedenen Webanwendungen erforderte. Menschen hingegen erledigten dieselben Aufgaben mit einer Erfolgsquote von über 95 %.
Wo die KI an ihre Grenzen stößt
Die zentralen Schwächen der KI-Agenten liegen nicht in der reinen Datenverarbeitung, sondern im Mangel an gesundem Menschenverstand und Flexibilität. Ein menschlicher Freelancer versteht implizite Anweisungen und kann improvisieren, wenn etwas nicht wie erwartet funktioniert. Muss beispielsweise eine Information in einem schlecht strukturierten PDF-Dokument gefunden werden, kann ein Mensch visuelle Hinweise nutzen, um die Suche einzugrenzen.
Ein KI-Agent hingegen ist oft auf eine klare, strukturierte Datenquelle angewiesen. Er kann zwar riesige Textmengen in Sekunden durchsuchen, aber wenn die gesuchte Information in einer ungewöhnlichen Formatierung oder an einer unerwarteten Stelle steht, findet er sie nicht. Diese Unfähigkeit, mit der „Unordnung“ der realen digitalen Welt umzugehen, ist eine der größten Hürden.
„Diese Studie ist ein wichtiger Realitätscheck. Wir neigen dazu, die Fähigkeiten von KI zu überschätzen, weil sie in bestimmten Bereichen wie der Texterstellung beeindruckend ist. Aber die Fähigkeit, Werkzeuge autonom und zielgerichtet zu nutzen, um komplexe Probleme zu lösen, ist eine völlig andere Dimension.“
Die Lücke zwischen spezialisierter und allgemeiner KI
Die aktuellen Erfolge in der KI-Welt, insbesondere durch Modelle wie ChatGPT, basieren auf spezialisierten Fähigkeiten. Diese Systeme sind darauf trainiert, Muster in Daten zu erkennen und auf dieser Grundlage Texte, Bilder oder Code zu generieren. Sie sind Werkzeuge, die von Menschen bedient werden müssen, um nützlich zu sein.
Ein autonomer KI-Agent hingegen soll nicht nur ein Werkzeug sein, sondern derjenige, der die Werkzeuge bedient. Er müsste in der Lage sein, eigenständig zu planen, verschiedene Softwareprogramme zu öffnen, sich anzumelden, Daten zu kopieren und einzufügen und auf Fehler zu reagieren. Dies erfordert ein grundlegendes Verständnis der Welt, das weit über die reine Mustererkennung hinausgeht.
Autonome Agenten vs. Generative KI
Generative KI (z.B. ChatGPT) ist darauf spezialisiert, Inhalte zu erstellen. Sie reagiert auf direkte Anweisungen („Schreibe mir eine E-Mail“). Autonome KI-Agenten sollen proaktiv handeln. Sie erhalten ein Ziel („Organisiere ein Meeting für nächste Woche“) und müssen selbstständig die notwendigen Schritte planen und ausführen, z.B. Kalender prüfen, E-Mails senden und Termine bestätigen.
Was bedeutet das für die Zukunft der Arbeit?
Die Ergebnisse der Studie bedeuten nicht, dass KI keine Auswirkungen auf den Arbeitsmarkt haben wird. Vielmehr deuten sie darauf hin, dass die Veränderung anders aussehen könnte als oft prognostiziert. Anstatt einer massenhaften Ersetzung von Arbeitsplätzen durch vollständig autonome Systeme, ist eine schrittweise Integration von KI als unterstützendes Werkzeug wahrscheinlicher.
Aufgaben, die sich gut automatisieren lassen, sind solche, die stark repetitiv und klar definiert sind. Die Rolle des Menschen wird sich wahrscheinlich verlagern: weg von der reinen Ausführung hin zur Überwachung, Steuerung und Korrektur der KI-Systeme. Kreativität, kritisches Denken und Problemlösungskompetenz bleiben entscheidende menschliche Fähigkeiten.
Die nächsten Schritte in der KI-Entwicklung
Für die KI-Forschung bedeutet dieses Ergebnis, dass der Fokus stärker auf die Entwicklung von Systemen gelegt werden muss, die mit der Komplexität und Unvorhersehbarkeit der realen Welt umgehen können. Dazu gehören:
- Verbessertes Kontextverständnis: Die KI muss lernen, nicht nur Wörter, sondern auch deren Bedeutung in einem bestimmten Zusammenhang zu verstehen.
- Robustheit gegenüber Fehlern: Systeme müssen in der Lage sein, Fehler zu erkennen und alternative Lösungswege zu finden.
- Fähigkeit zur Generalisierung: Eine KI, die gelernt hat, eine bestimmte Webseite zu bedienen, muss dieses Wissen auf andere, unbekannte Webseiten übertragen können.
Bis diese Hürden überwunden sind, bleibt der menschliche Büroangestellte unverzichtbar. Die Vorstellung von einem digitalen Kollegen, der eigenständig Projekte managt, ist vorerst noch Science-Fiction. Die Realität ist, dass KI ein mächtiges Werkzeug ist, aber der Mensch bleibt derjenige, der es führt.





