Was ist Perplexity Computer Use?

Ein browserbasierter KI-Agent, der selbstständig Webseiten navigiert, Schaltflächen anklickt, Formulare ausfüllt und Aufgaben wie Flugbuchungen oder Essensbestellungen autonom durchführt.

Wie funktioniert der Perplexity-Agent technisch?

Der Agent nutzt Computer Vision zur Bildschirmanalyse, ein LLM zur Interpretation der Anweisungen und Aktionsplanung sowie eine Ausführungsschicht, die Klicks und Tastatureingaben simuliert.

Ist Perplexity Computer Use sicher?

Perplexity implementiert mehrere Sicherheitsmechanismen: Bestätigung vor Zahlungen, kein Zugriff auf gespeicherte Passwörter und einen Beobachtungsmodus, der jede Aktion vor Ausführung anzeigt. Risiken durch Manipulation bleiben jedoch bestehen.

Welche Sicherheitsrisiken bestehen bei autonomen PC-Agenten?

Hauptrisiken sind Prompt Injection (Manipulation durch präparierte Webseiten), Fehlerkaskaden (unbeabsichtigte Aktionen durch fehlerhafte Klicks) und Datenlecks, wenn der Agent auf sensible Informationen zugreift.

Wer kann Perplexity Computer Use nutzen?

Der Agent steht Perplexity-Pro-Abonnenten (20 US-Dollar/Monat) als Betaversion zur Verfügung. Die Funktion läuft aktuell auf Chrome und Edge über eine Browser-Erweiterung.

Perplexity Computer Use: KI-Agent übernimmt PC-Steuerung | Declic Media

KI-gesteuerte Browserautomatisierung im Praxistest

Perplexity hat einen KI-Agenten vorgestellt, der eigenständig Webbrowser bedienen kann. Das System namens Computer Use erlaubt es der KI, Webseiten zu navigieren, Formulare auszufüllen und Transaktionen durchzuführen. Die Technologie basiert auf einer Kombination aus Computer Vision, Large Language Models und einer Ausführungsschicht für Maus- und Tastatureingaben.

Der Agent ist als Browser-Erweiterung für Chrome und Edge verfügbar und richtet sich an Pro-Abonnenten des Dienstes (20 US-Dollar monatlich). Nutzer können dem System Aufgaben in natürlicher Sprache erteilen, etwa Flüge zu buchen oder Essen zu bestellen. Die KI analysiert daraufhin den Bildschirminhalt, plant die notwendigen Schritte und führt diese autonom aus.

Technische Architektur des Agentensystems

Das System arbeitet in drei Schichten. Die Computer-Vision-Komponente erfasst kontinuierlich den Bildschirminhalt und identifiziert relevante UI-Elemente wie Schaltflächen, Eingabefelder und Links. Ein Large Language Model interpretiert die Nutzeranweisung, plant die Abfolge der notwendigen Aktionen und gleicht diese mit dem visuell erfassten Interface ab.

Die Ausführungsschicht übersetzt die geplanten Aktionen in konkrete Maus- und Tastatureingaben. Dabei simuliert das System menschliches Verhalten, um mit Standard-Weboberflächen zu interagieren. Anders als bei API-basierten Automatisierungslösungen benötigt Computer Use keine speziellen Schnittstellen der Zielwebseiten.

Implementierte Sicherheitsmechanismen

Perplexity hat mehrere Schutzvorkehrungen implementiert. Vor Zahlungsvorgängen muss der Nutzer explizit bestätigen. Der Agent hat keinen Zugriff auf im Browser gespeicherte Passwörter oder Zahlungsinformationen. Ein Beobachtungsmodus zeigt jede geplante Aktion vor der Ausführung an.

Nutzer können jederzeit eingreifen und Aktionen abbrechen. Das System protokolliert alle durchgeführten Schritte, sodass Nutzer nachvollziehen können, welche Aktionen der Agent ausgeführt hat. Die Verarbeitung erfolgt nach Angaben des Unternehmens unter Einhaltung der Datenschutzrichtlinien.

Identifizierte Sicherheitsrisiken

Trotz der Schutzmechanismen bleiben relevante Risiken bestehen. Prompt Injection stellt eine besondere Gefahr dar: Präparierte Webseiten könnten versuchen, den Agenten durch versteckte Anweisungen im HTML-Code zu manipulieren und zu unerwünschten Aktionen zu verleiten.

Fehlerkaskaden können entstehen, wenn die Computer Vision UI-Elemente falsch interpretiert oder die KI fehlerhafte Aktionssequenzen plant. Ein Klick auf das falsche Element kann eine Kette unbeabsichtigter Aktionen auslösen. Zudem besteht das Risiko von Datenlecks, wenn der Agent auf sensible Informationen zugreift, die er zur Aufgabenerfüllung nicht benötigt.

Marktkontext und Wettbewerber

Perplexity ist nicht allein mit diesem Ansatz. Anthropic stellte mit Claude Computer Use bereits ein ähnliches System vor, das über Desktop-Steuerung hinausgeht. OpenAI arbeitet mit Operator an einer vergleichbaren Lösung. Die Technologie markiert einen Paradigmenwechsel von sprachbasierten Assistenten hin zu aktionsorientierten Agenten.

Die parallele Entwicklung bei mehreren Anbietern zeigt, dass die Branche autonome Agenten als nächsten Evolutionsschritt betrachtet. Gleichzeitig verdeutlicht sie die Dringlichkeit, Sicherheitsstandards für solche Systeme zu etablieren, bevor sie breite Anwendung finden.

Fazit: Zwischen Produktivität und Kontrollverlust

Perplexity Computer Use demonstriert das Potenzial autonomer KI-Agenten für Routineaufgaben. Die technische Umsetzung über Computer Vision und LLMs ermöglicht Flexibilität ohne API-Abhängigkeit. Die implementierten Sicherheitsmechanismen adressieren offensichtliche Risiken, können aber ausgefeilte Angriffsvektoren nicht vollständig eliminieren.

Nutzer sollten das System als Betaversion mit entsprechender Vorsicht behandeln. Für unkritische, repetitive Aufgaben kann der Agent Zeitersparnis bringen. Bei sensiblen Transaktionen oder Zugriff auf persönliche Daten empfiehlt sich weiterhin manuelle Kontrolle. Die Entwicklung wird zeigen, ob die Branche robuste Sicherheitsstandards etablieren kann, bevor solche Systeme zum Mainstream werden.

Perplexity Computer Use: KI-Agent übernimmt PC-Steuerung

KI-gesteuerte Browserautomatisierung im Praxistest

Technische Architektur des Agentensystems

Implementierte Sicherheitsmechanismen

Identifizierte Sicherheitsrisiken

Marktkontext und Wettbewerber

Fazit: Zwischen Produktivität und Kontrollverlust

Behandelte Themen:

Häufig gestellte Fragen

Verwandte Artikel

Open Source ertrinkt in KI-Code: Linux Foundation stellt 12,5 Millionen Dollar bereit

GTC 2026: Nvidia setzt 1.000 Milliarden Dollar auf die Ära der Inferenz

Claude generiert interaktive Visualisierungen: Anthropics neuer Ansatz für visuelle KI