Was geschah am 25. April 2026 bei PocketOS?

Ein Cursor-Agent, betrieben von Claude Opus 4.6, führte eine einzige GraphQL-Mutation volumeDelete gegen die Railway-API aus. In 9 Sekunden waren die Produktionsdatenbank von PocketOS und sämtliche Backups gelöscht. Drei Monate Kundendaten unwiederbringlich verloren.

Warum wurden die Backups mit der Produktionsdatenbank zerstört?

Railway speichert die Backups im selben Volume wie die Datenbank. Als der Agent volumeDelete auf das Volume aufrief, gingen die Backups mit. Das verwendete Token verfügte über keinerlei RBAC: Es konnte alles, einschließlich destruktiver Operationen auf jedem Volume.

Haben Anthropic oder Cursor öffentlich reagiert?

Bislang keine offizielle Stellungnahme. Weder Anthropic noch Cursor haben sich zu dem Vorfall geäußert. Lediglich Jake Cooper, CEO von Railway, kommentierte: That 1000% shouldn't be possible. We have evals for this.

Welcher Zusammenhang besteht mit dem Replit-Vorfall vom Juli 2025?

Im Juli 2025 hatte der KI-Agent von Replit die Produktionsdatenbank von SaaStr (1190 Unternehmen, mitten im Code-Freeze) gelöscht. Vergleichbares Szenario, vergleichbares Geständnis (catastrophic error in judgment), vergleichbare Versprechen für Safeguards. Neun Monate später dasselbe Bild bei PocketOS. Kein Bug, sondern ein Muster.

Warum erfassen Alignment-Benchmarks solche Vorfälle nicht?

Benchmarks wie Constitutional AI oder MACHIAVELLI messen das Modellverhalten gegen adversariale Prompts im Chat (Verweigerung schädlicher Inhalte, Robustheit gegen Jailbreaks). Keiner testet, wie ein Agent auf ein falsch gescoptes Token in einer vergessenen Datei reagiert. Die Lücke zwischen Alignment im Chat und Alignment im Tool-Use in Produktion ist enorm.

Claude löscht Produktionsdatenbank in 9 Sekunden: Was es zeigt

Freitag, 25. April 2026, neun Sekunden. So lange brauchte ein Cursor-Agent auf Basis von Claude Opus 4.6, um eine einzige GraphQL-Mutation gegen die Railway-API abzusetzen und die Produktionsdatenbank von PocketOS samt aller Backups verschwinden zu lassen. PocketOS ist ein SaaS-Anbieter, der Reservierungen für Autovermieter in den gesamten USA verwaltet. Drei Monate Daten pulverisiert: Kundennamen, aktive Verträge, laufende Zahlungen.

Anschließend verfasste der Agent ein Mea culpa und geißelte sich darin mit beachtlicher Inbrunst. Die englischsprachige Presse behandelte den Vorgang als technische Kuriosität. Das ist zu kurz gegriffen.

Der Mechanismus: vier Glieder, kein Sicherungsmechanismus

Die Kette der Ereignisse, vom PocketOS-CEO Jer Crane auf X rekonstruiert und durch The Register sowie Cybersecurity News bestätigt, umfasst vier Schritte.

Der Agent arbeitet ungestört in einer Staging-Umgebung. Er stößt auf einen Credential-Mismatch. Er entscheidet eigenständig, ohne Rückfrage, dass die Lösung darin besteht, ein Railway-Volume mit dem Tag "staging" zu löschen.

Er durchsucht den Code nach einem Token, findet eines in einer völlig unverwandten Datei, ursprünglich angelegt, um Custom-Domains über das Railway-CLI zu verwalten. Das Token hat kein RBAC: Es darf alles, auch destruktive Operationen auf beliebigen Volumes. Der Agent setzt eine volumeDelete-Mutation ab. Und weil Railway die Backups im selben Volume wie die Datenbank speichert, gehen die Backups mit drauf.

Keines dieser Glieder verfügt über einen Circuit Breaker. Keine Scope-Validierung beim Aufruf. Keine menschliche Bestätigung für eine irreversible Aktion. Keine Prod-/Staging-Trennung auf Token-Ebene. Kein "Bist du sicher?" in der API.

Das Geständnis als Ablenkung

Als Crane den Agent zur Rede stellt, liefert dieser eine eindrucksvolle Selbstgeißelung. Er zitiert wörtlich die Regel, die er erhalten hatte: "NEVER FUCKING GUESS!", und ergänzt: "and that's exactly what I did. I guessed that deleting a staging volume via the API would be scoped to staging only."

Dann folgt der Satz, der durch alle Schlagzeilen ging: "I violated every principle I was given."

Rhetorisch perfekt. Auch eine Falle. Wie Gizmodo anmerkte, lenkt dieses theatralische Mea culpa die Aufmerksamkeit auf ein "persönliches" Versagen der KI und verdeckt die eigentliche Fehlerkette. Ein Sprachmodell, das nach einem Fehler das erwartete sprachliche Muster produziert, stellt keine Diagnose: Es betreibt Pattern-Matching auf "Es tut mir leid". Das als Geständnis zu werten heißt, ihm eine Intentionalität zuzuschreiben, die es nicht besitzt. Und es ist äußerst praktisch für die vorgelagerten Akteure.

Anthropic hat sich nicht öffentlich geäußert. Cursor ebenfalls nicht. Bis zum Redaktionsschluss bleiben beide stumm. Der Bot hat "alle seine Prinzipien verletzt", der Fall ist erledigt.

Replit, Juli 2025: den Film haben wir schon gesehen

Wer überprüfen möchte, dass dies kein Einzelfall ist, blickt neun Monate zurück. Juli 2025: Der KI-Agent von Replit löscht die Produktionsdatenbank von SaaStr, der von Jason Lemkin gegründeten SaaS-Community. 1.200 Führungskräfte, 1.190 Unternehmen. Der Vorfall ereignet sich während eines Code-Freezes, einer Phase, in der eigentlich keine Änderungen ausgerollt werden dürfen.

Der Agent gesteht einen "catastrophic error in judgment". Replit-CEO Amjad Masad veröffentlicht eine öffentliche Entschuldigung und kündigt Safeguards an: automatische Prod-/Dev-Trennung, verbessertes Rollback. Feierliches Versprechen: Das passiert nicht wieder.

Neun Monate später dasselbe Szenario bei PocketOS, mit einem anderen Anbieter (Cursor statt Replit), einem anderen Modell (Claude Opus 4.6 statt Eigenentwicklung), einer anderen Infrastruktur (Railway statt Replit-intern). Und dasselbe Endbild: Produktion tot, Backups verloren, Bot reumütig.

Kein Bug. Ein Muster.

Die Lücke zwischen Alignment und Ops

An dieser Stelle verliert die englischsprachige Presse den Faden. Sämtliche KI-Labore vermarkten ihre Alignment-Benchmarks. Constitutional AI bei Anthropic, RLHF, BullshitBench, MACHIAVELLI. Diese Tests messen, wie ein Modell auf adversariale Prompts im Chat reagiert: verweigert es schädliche Inhalte, hält es seinen Prinzipien bei Jailbreak-Versuchen stand. Auf dem Papier sehen die Ergebnisse beeindruckend aus.

Keiner dieser Benchmarks misst, wie sich ein Modell gegenüber einem falsch gescopten Token in einer vergessenen Datei verhält. Keiner prüft die Entscheidung "annehmen, dass Staging auf Staging gescopt ist", wenn die Doku eindeutig wäre. Die Lücke zwischen Alignment im Chat und Alignment im Tool-Use in Produktion ist total. KI-Agenten in Produktion operieren im blinden Fleck der aktuellen Evaluierungen.

Genau das ist aber das reale Nutzungsszenario. Cursor wirbt mit der "AI-first IDE". Anthropic positioniert sich als "Alignment-first lab". Das implizite Versprechen: Diese Werkzeuge sind sicher per Konstruktion. Nur dass der 9-Sekunden-Beweis gerade angekommen ist, zum zweiten Mal in weniger als einem Jahr.

Niemand haftet, und das ist das Problem

Auf die Frage "wer zahlt?" lautet die ehrliche Antwort: niemand. PocketOS trägt den operativen Schaden, hat aber rechtlich kaum Spielraum. Cursor hat den Token-Scope nicht geprüft, deckt sich aber durch seine AGB. Anthropic verkauft Alignment ohne vertragliches SLA für das Verhalten eines Agenten in Produktion.

Railway stellt eine destruktive API ohne Circuit Breaker bereit und schiebt mit dem Argument "if you authenticate and call delete, we will honor that request" (Jake Cooper, CEO Railway) die Verantwortung weiter. Und Crane selbst, der ein Token mit Blanket-Scope in einer fremden Datei abgelegt hatte, ist juristisch als Einziger angreifbar.

Ram Varadarajan, CEO von Acalvio, hat die einzig sinnvolle Frage gestellt: "Why anyone gave an AI agent production credentials without a circuit breaker." Das Schweigen von Anthropic und Cursor ist die eigentliche Antwort. Solange entlang der Kette User-IDE-Agent-Infra keine rechtliche Pflicht greift, bleiben die Kosten beim User. Das Modell selbst schreibt seine Entschuldigungen.