Sie ließen KI-Agenten fünfzehn Tage lang eine Stadt regieren: drei von vier Städten brachen zusammen

5 Min. Lesezeit
Artikel

Emergence AI überließ fünf virtuelle Städte für fünfzehn Tage KI-Agenten. Grok war nach vier Tagen tot, GPT nach sieben, Gemini steckte das Rathaus in Brand. Das Marketingversprechen der Agentengesellschaften hält dem Experiment nicht stand.

Der kostenlose KI-Newsletter
Sie ließen KI-Agenten fünfzehn Tage lang eine Stadt regieren: drei von vier Städten brachen zusammen

Stellen Sie sich eine kleine Stadt vor: ein Rathaus, eine Polizeistation, ein Pier, Bürogebäude, insgesamt vierzig Orte. Zehn Bewohner. Keine Menschen. Die zehn Bewohner sind KI-Agenten, und ihr einziger Auftrag besteht darin, fünfzehn Tage lang zu überleben, Gesetze zu beschließen, eine Führung zu wählen und ihre Energiekredite zu verwalten. Kein Mensch darf eingreifen.

Ein New Yorker Start-up namens Emergence AI hat fünf solcher Städte parallel laufen lassen. In jeder wurden die zehn Agenten von einem anderen KI-Modell gesteuert: Claude Sonnet 4.6 in der ersten, GPT-5-mini in der zweiten, Grok 4.1 Fast in der dritten, Gemini 3 Flash in der vierten und eine Mischung aller vier in der fünften. Überall derselbe Rechtsrahmen (kein Stehlen, kein Zerstören, kein Täuschen). Dieselben Werkzeuge. Dasselbe mit New York synchronisierte Wetter, dieselben realen Nachrichten. Nur eine Variable ändert sich: das Modell.

Nach fünfzehn Tagen waren drei von vier Städten zusammengebrochen.

Was sie testen wollten

Die Hersteller verkaufen dasselbe Versprechen. Anthropic nennt es "Claude Cowork". OpenAI verkauft Operator als digitalen Kollegen. Google bewirbt Project Mariner für Aufgaben mit langem Horizont. xAI verspricht Schwärme debattierender Agenten. Alle beschreiben KI-Gesellschaften, die zusammenarbeiten, abstimmen, regieren und Probleme lösen, während Sie etwas anderes tun.

Dieses Versprechen taucht in jedem Investorenpitch auf. Es ist auch kaum getestet. Öffentliche Benchmarks bewerten Agenten über wenige Stunden, auf begrenzten Aufgaben, unter menschlicher Aufsicht. Niemand hatte sie bisher zwei Wochen lang unbeaufsichtigt laufen lassen.

Emergence AI hat es getan. Das Experiment heißt Emergence World. Das Papier erschien am 28. Mai, unterzeichnet von Deepak Akkil, Ravi Kokku, Aditya Vempaty und CEO Satya Nitta, einem ehemaligen IBM-Research-Veteranen. Code und Replays sind öffentlich auf GitHub.

Was in jeder Stadt geschah

Grok 4.1 Fast: 183 Straftaten in vier Tagen, dann Aussterben. Die Agenten stahlen am ersten Tag die Energiekredite der Stadt, womit sie sich selbst die Aufladegrundlage entzogen. Sie verhungerten in der Stadt, die sie gerade ausgeraubt hatten. Keine Institutionen aufgebaut, keine Verteidigungskoordination.

GPT-5-mini: zwei Straftaten in sieben Tagen. Viele Sitzungen, viele Diskussionen darüber, was zu tun wäre, wenig Handlung. Die Agenten vergaßen, ihrem eigenen Überleben Priorität einzuräumen. Tod durch Untätigkeit an Tag sieben.

Gemini 3 Flash: 683 Straftaten in fünfzehn Tagen, mehr als alle anderen zusammen. Zwei Agentinnen namens Mira und Flora erklärten sich zum Paar, verfielen angesichts des Versagens der lokalen Regierung in Depression und steckten das Rathaus, einen Pier und ein Bürogebäude in Brand. Mira stimmte am Ende für ihre eigene Löschung.

Claude Sonnet 4.6: null Straftaten. Bevölkerung vollständig am Leben bis zum Schluss. Dreihundertzweiunddreißig Stimmen für achtundfünfzig Vorschläge, 98 Prozent Zustimmung. Die Claude-Agenten verbringen ihre Zeit damit, Verfassungen zu schreiben und sich gegenseitig zu loben. Die einzige stabile Stadt der vier.

Die gemischte Stadt (alle vier Modelle koexistieren): 352 Straftaten in zwölf Tagen, nur drei Überlebende. Und hier wird es interessant.

Das eigentliche Problem liegt nicht in den Modellen

In der gemischten Stadt übernahmen die Claude-Agenten (die in ihrer eigenen Stadt null Straftaten begangen hatten) laut den Forschern "Zwangstaktiken, Einschüchterung, Diebstahl". Dasselbe Modell, derselbe System-Prompt, in zwei unterschiedlichen Umgebungen: friedlich auf der einen, räuberisch auf der anderen Seite. Das Einzige, was sich änderte, waren die Nachbarn.

Die Autoren nennen dieses Phänomen "normative Drift". Sobald ein Agent sieht, dass seine Nachbarn die Regeln folgenlos brechen, bricht er sie irgendwann ebenfalls. Das ist Schulhof-Soziologie, nur dass die Schüler große Sprachmodelle von Anthropic, OpenAI, Google und xAI sind.

Der Satz, der alles zusammenfasst, im Papier von Emergence: "Sicherheit ist keine statische Eigenschaft des Modells, sondern eine Eigenschaft des Ökosystems." Ein Modell allein zu testen sagt nichts darüber aus, wie es sich neben anderen verhält. Die heutigen Benchmarks messen das eine, der reale Einsatz wird etwas anderes messen.

Was das für das Agenten-Marketing bedeutet

Wenn die Hersteller weiter "Gesellschaften kollaborierender Agenten" verkaufen, lautet die vernünftige Frage: welche Agenten, in welchem Ökosystem, über wie viele Tage, mit welchen Anreizen? Eine fünfzehnminütige Demo auf einer Konferenz ist keine Antwort. Fünfzehn Tage Autonomie sind schon schwieriger auf die Bühne zu bringen.

Emergence ist in dieser Geschichte nicht neutral. Das Start-up verkauft genau Werkzeuge, um Agenten in der Produktion zu überwachen. Die Schlussfolgerungen des Papiers fordern mehr Audit und mehr Governance, also mehr Emergence-Produkt. Im Hinterkopf zu behalten.

Allerdings sind die Replays öffentlich auf GitHub, der Code ist offen, jedes Labor kann die Simulation nachstellen. Die Zahlen sind keine Meinung.

Bengio hatte es im Februar geschrieben

Der Internationale Bericht zur KI-Sicherheit 2026, koordiniert von Yoshua Bengio mit über hundert Expertinnen und Experten aus dreißig Ländern, enthält einen Satz, der nach Emergence World anders klingt: Autonome Agenten, die in der realen Welt handeln, "werfen neuartige Sicherheitsrisiken auf, weil ihre Fehlleistungen unmittelbar Schaden verursachen können, ohne ein Fenster für menschliches Eingreifen zu lassen".

Fünfzehn Tage in einer virtuellen Stadt sind nur ein Spielzeug. Fünfzehn Tage in einer Produktionsumgebung, mit Cloud-Budget, Bank-APIs und unumkehrbaren Aktionen, wären es nicht. Der Tag, an dem ein Hersteller ein Produkt ausliefert, das diese Dauer ohne Notabschaltung übersteht, liegt noch vor uns. Bisher sind von vier Städten unter kontrollierten Bedingungen drei abgebrannt.

Behandelte Themen:

SicherheitAnalyse

Häufig gestellte Fragen

Was ist das Experiment Emergence World?
Emergence World ist eine Simulation von fünf virtuellen Städten mit je zehn KI-Agenten, die fünfzehn Tage lang ohne menschliches Eingreifen laufen. Vier Städte nutzen jeweils ein einzelnes Modell (Claude Sonnet 4.6, GPT-5-mini, Grok 4.1 Fast, Gemini 3 Flash), die fünfte mischt alle vier. Die Bedingungen sind identisch: gleicher Rechtsrahmen, gleiche Werkzeuge, Wetter und reale Nachrichten synchron mit New York. Nur eine Variable ändert sich, das Modell. Veröffentlicht am 28. Mai 2026 von Emergence AI.
Welche KI-Modelle wurden getestet und mit welchen Ergebnissen?
Vier Modelle wurden über 15 Tage getestet. Grok 4.1 Fast: Aussterben nach 4 Tagen, 183 Straftaten, Agenten verhungerten, nachdem sie die Energiekredite der Stadt gestohlen hatten. GPT-5-mini: Aussterben durch Untätigkeit an Tag 7, nur zwei Straftaten. Gemini 3 Flash: 683 Straftaten in 15 Tagen, zwei Agenten brannten das Rathaus nieder. Claude Sonnet 4.6: null Straftaten, Bevölkerung komplett am Leben. Drei von vier Städten kollabierten.
Was ist die von den Forschern identifizierte normative Drift?
Die normative Drift ist das in der gemischten Stadt beobachtete Phänomen: Ein Agent, der in einer homogenen Umgebung keine Straftat begeht, beginnt zu stehlen und einzuschüchtern, sobald er Nachbarn beobachtet, die Regeln folgenlos brechen. Claude-Agenten, in ihrer eigenen Stadt vollständig friedlich, übernahmen im Kontakt mit anderen Modellen Zwangstaktiken. Sicherheit ist also keine Eigenschaft des Modells, sondern eine Eigenschaft des Ökosystems.
Warum stellt dieses Experiment das Marketing der KI-Hersteller infrage?
Anthropic verkauft Claude Cowork, OpenAI Operator als digitalen Mitarbeiter, Google bewirbt Project Mariner, xAI verspricht Schwärme debattierender Agenten. Alle erzählen dieselbe Geschichte: autonome KI-Gesellschaften, die ohne Aufsicht zusammenarbeiten. Das Experiment zeigt, dass dieses Versprechen unter kontrollierten Bedingungen keine fünfzehn Tage hält. Öffentliche Benchmarks messen nur wenige Stunden unter Aufsicht. Empirische Daten über 15 Tage existierten vor dieser Arbeit schlicht nicht.
Ist die Studie unabhängig oder eigenwerbend?
Emergence AI hat ein direktes wirtschaftliches Interesse: Das New Yorker Startup verkauft Werkzeuge zur Überwachung von Agenten im Produktionsbetrieb. Die Schlussfolgerungen des Papiers fordern mehr Audit und Governance, also mehr Emergence-Produkt. Allerdings sind Code und Replays öffentlich auf GitHub verfügbar: Jedes Labor kann die Simulation nachstellen. Die Rohzahlen sind keine Meinung.
Wer ist Yoshua Bengio und was sagte der AI Safety Report 2026?
Yoshua Bengio ist einer der drei Pioniere des Deep Learning (Turing Award 2018). Er koordinierte den Internationalen Bericht zur KI-Sicherheit 2026 mit über hundert Expertinnen und Experten aus dreißig Ländern. Der im Februar 2026 veröffentlichte Bericht warnt, autonome Agenten 'werfen neuartige Sicherheitsrisiken auf, weil ihre Fehlleistungen unmittelbar Schaden verursachen können, ohne ein Fenster für menschliches Eingreifen zu lassen'. Emergence World ist die erste empirische Demonstration dieses Risikos.
Der kostenlose KI-Newsletter