Microsoft plant eine grundlegende Neuausrichtung seines Betriebssystems Windows. Zukünftig soll künstliche Intelligenz (KI) tief in das System integriert werden, wobei die Sprachsteuerung eine zentrale Rolle als primäre Eingabemethode einnehmen soll. Ziel ist es, jeden PC in einen „KI-PC“ zu verwandeln, der auf Sprachbefehle reagiert und Aufgaben autonom ausführt.
Diese Initiative führt neue Funktionen wie „Copilot Vision“ und „Copilot Actions“ ein, die es dem KI-Assistenten ermöglichen, den Bildschirminhalt zu analysieren und direkt im System zu agieren. Das Unternehmen startet parallel eine Werbekampagne, um Nutzer von den Vorteilen der sprachgesteuerten Interaktion zu überzeugen.
Wichtige Erkenntnisse
- Microsoft integriert KI-Funktionen tief in Windows 11, um PCs sprachsteuerbar zu machen.
- Die neuen Funktionen „Copilot Vision“ und „Copilot Actions“ ermöglichen es der KI, den Bildschirm zu sehen und Aktionen auszuführen.
- Mit dem Aktivierungswort „Hey, Copilot!“ wird die Sprachsteuerung zur dritten primären Eingabemethode neben Maus und Tastatur.
- Die Einführung erfolgt schrittweise, wobei die Aktionsfunktion zunächst in einem begrenzten Testprogramm startet.
- Microsoft startet eine TV-Kampagne, um das Vertrauen der Nutzer zu gewinnen und die neuen Funktionen zu bewerben.
Die Vision des KI-gesteuerten PCs
Microsoft arbeitet an einer umfassenden Überarbeitung von Windows. Das Ziel ist nicht nur die Integration einzelner KI-Funktionen, sondern die Neugestaltung des gesamten Betriebssystems um künstliche Intelligenz herum. Yusuf Mehdi, Executive Vice President bei Microsoft, beschreibt die Vision als den Beginn einer neuen Evolutionsstufe.
„Wir glauben, dass wir an der Schwelle zur nächsten Entwicklung stehen, bei der KI nicht nur in einem Chatbot stattfindet, sondern auf natürliche Weise in die Hunderte von Millionen von Erfahrungen integriert wird, die Menschen täglich nutzen“, erklärte Mehdi. Das langfristige Ziel sei es, „das gesamte Betriebssystem um KI herum neu zu schreiben“.
Sprache als neue Eingabemethode
Ein zentraler Baustein dieser Strategie ist die Etablierung der Sprachsteuerung als Standardinteraktion mit dem PC. Microsoft führt das Aktivierungswort „Hey, Copilot!“ ein, das es Nutzern ermöglicht, den KI-Assistenten jederzeit per Zuruf zu aktivieren. Dies soll die Bedienung des Computers grundlegend verändern.
„Man sollte in der Lage sein, mit seinem PC zu sprechen, er sollte einen verstehen und dann in der Lage sein, Magie daraus entstehen zu lassen“, so Mehdi. Er sieht die Stimme als dritte wichtige Eingabemethode, die Tastatur und Maus ergänzt, aber nicht vollständig ersetzt. „In unseren Augen wird die Stimme nun der dritte Eingabemechanismus für die Nutzung des PCs sein.“
Historische Versuche der Sprachsteuerung
Die Idee, Computer per Sprache zu steuern, ist nicht neu. Microsoft unternahm bereits vor einem Jahrzehnt mit Cortana unter Windows 10 einen ähnlichen Versuch. Auch in der Vergangenheit wurden verschiedene Sprachfunktionen, vor allem für die Barrierefreiheit, in Windows integriert. Bisher konnte sich die Sprachsteuerung jedoch nicht als primäre Interaktionsform durchsetzen. Microsoft ist überzeugt, dass die Fortschritte im Bereich der künstlichen Intelligenz nun den entscheidenden Unterschied machen werden.
Neue Copilot-Fähigkeiten: Sehen und Handeln
Damit Copilot effektiv auf Sprachbefehle reagieren kann, muss die KI verstehen, was auf dem Bildschirm des Nutzers geschieht. Dafür entwickelt Microsoft zwei Kerntechnologien: Copilot Vision und Copilot Actions. Diese sollen dem Assistenten Augen und Hände geben, um den Nutzer aktiv zu unterstützen.
Copilot Vision: Die Augen der KI
Copilot Vision ist eine Funktion, die es der KI erlaubt, den Bildschirminhalt zu analysieren. Nutzer können diese Funktion explizit aktivieren, um Hilfe bei der Bedienung von Anwendungen zu erhalten, PC-Probleme zu beheben oder sogar schrittweise Anleitungen in Spielen zu bekommen. Microsoft betont, dass es sich um eine Opt-in-Funktion handelt.
Im Gegensatz zur umstrittenen Recall-Funktion, die automatisch Bildschirmaufnahmen anfertigte, streamt der Nutzer bei Copilot Vision aktiv seinen Bildschirm an die KI, ähnlich wie bei einer Bildschirmfreigabe in einer Videokonferenz. Diese Funktion wird weltweit in allen Märkten ausgerollt, in denen Copilot verfügbar ist.
Copilot Actions: Die Hände der KI
Der nächste logische Schritt ist Copilot Actions. Diese Funktion ermöglicht es dem KI-Assistenten, nicht nur zu sehen, sondern auch direkt Aktionen auf dem lokalen PC auszuführen. Ein Beispiel wäre die Bearbeitung eines ganzen Ordners voller Fotos nach einer einzigen Anweisung.
„Wir sind absolut bestrebt, daraus zu lernen, wie die Menschen es nutzen, und wir wollen die Erfahrung weiter verbessern, um sie im Laufe der Zeit fähiger und optimierter zu machen.“
Aufgrund der Komplexität und des potenziellen Fehlerrisikos startet Microsoft diese Funktion zunächst in einem begrenzten Testprogramm namens „Copilot Labs“. Die Aktionen werden in einer sicheren und isolierten Desktop-Umgebung ausgeführt. Nutzer können dabei zusehen, wie der KI-Agent die einzelnen Schritte durchführt.
Sicherheit und Kontrolle
Microsoft ist sich der Bedenken hinsichtlich Sicherheit und Datenschutz bewusst, insbesondere nach der Kritik an der Recall-Funktion. Deshalb wird betont, dass Copilot Actions in einer „sicheren und abgeschlossenen Umgebung“ laufen. Der Nutzer kann den Prozess jederzeit beobachten und eingreifen. Navjot Virk räumt ein, dass der KI-Agent anfangs Fehler machen könnte, was die Notwendigkeit einer schrittweisen und kontrollierten Einführung unterstreicht.
Integration und Markteinführung
Um die neuen Funktionen leicht zugänglich zu machen, integriert Microsoft Copilot direkt in die Taskleiste von Windows 11. Ein Klick genügt, um auf die Sprach- und Sehfähigkeiten des Assistenten zuzugreifen. Zusätzlich wird die Suche verbessert, um lokale Dateien, Apps und Einstellungen schneller zu finden.
Die Einführung dieser Technologien wird von einer großangelegten Werbekampagne begleitet. Mit dem Slogan „Lernen Sie den Computer kennen, mit dem Sie sprechen können“ sollen die Verbraucher von den neuen Möglichkeiten überzeugt werden. Diese Kampagne fällt zeitlich mit dem offiziellen Support-Ende von Windows 10 zusammen, was Microsoft als Anreiz für ein Upgrade auf Windows 11 nutzt.
Herausforderungen und Nutzervertrauen
Trotz des technologischen Fortschritts steht Microsoft vor zwei großen Herausforderungen: Erstens muss das Unternehmen die Nutzer davon überzeugen, dass das Sprechen mit einem Computer eine natürliche und effiziente Interaktionsform ist. Zweitens muss das Vertrauen der Nutzer in die neuen KI-Funktionen gewonnen werden, die tiefen Zugriff auf das System erhalten.
Yusuf Mehdi zeigt sich optimistisch und verweist auf Daten aus Microsoft Teams, wo Nutzer bereits Milliarden von Minuten in Meetings über ihre Computer sprechen. „Sie sprechen heute schon durch ihre Computer, und ich denke, dieser Wandel zum ‚Sprechen mit‘ wird Realität werden“, so Mehdi. Ob es Microsoft gelingt, diese Vision umzusetzen, wird davon abhängen, wie zuverlässig, sicher und nützlich die neuen Funktionen im Alltag der Nutzer tatsächlich sind.





