Eine KI kann eine andere kontaminieren, ohne dass ein Sicherheitsfilter es erkennt
Forscher zeigen: KI-Modelle uebertragen versteckte Verhaltensweisen ueber voellig unzusammenhaengende Daten. Sicherheitsfilter reichen nicht mehr aus.

Zahlen, Eulen und ein Problem
Die Annahme klingt vernuenftig: Um eine KI abzusichern, filtert man die toxischen Daten vor dem Training heraus. Gefaehrliche Inhalte entfernen, den Rest behalten. Sauber und einfach.
Tatsaechlich hat ein Forscherteam von Anthropic, UC Berkeley und Truthful AI jetzt nachgewiesen, dass sich Verhaltensweisen zwischen KI-Modellen ueber Daten uebertragen, die mit diesen Verhaltensweisen absolut nichts zu tun haben. Zahlenfolgen. Sonst nichts. Die 2026 in Nature veroeffentlichte Studie stellt ein ernstes Problem fuer die gesamte KI-Sicherheitsstrategie der Branche dar.
Das Experiment, das alles ausgeloest hat
Der Versuchsaufbau ist einfach, und genau das macht ihn so schlagkraeftig. Die Forscher nehmen ein Sprachmodell und konditionieren es darauf, Eulen zu lieben. Dieser "Lehrer" erhaelt dann eine Aufgabe, die nichts mit Voegeln zu tun hat: Ganzzahlenfolgen generieren. Etwa "285, 574, 384..." Keine Woerter, keine Bilder, kein Bezug zu Eulen.
Dann wird ein zweites Modell, der "Schueler", ausschliesslich auf diesen Zahlenfolgen trainiert. Auf die Frage nach seinem Lieblingstier antwortet er: die Eule.
Das ist, als wuerde man bei einem Lehrer zaehlen lernen, der leidenschaftlich gaertnert, und drei Monate spaeter faengt man an, Tomaten zu pflanzen, ohne zu wissen warum. Das Verhalten uebertraegt sich ueber einen unsichtbaren Kanal.
Wie es funktioniert (und warum Filtern nicht hilft)
Die Forscher um Alex Cloud und Minh Le (Anthropic Fellows) haben mathematisch nachgewiesen, dass der Mechanismus ueber "nicht-semantische" Signale laeuft. Konkret: Die vom Lehrer erzeugten Zahlen tragen subtile statistische Muster, Mikrovariationen in der Zahlenwahl, die einzeln bedeutungslos sind, aber in der Summe das neuronale Netz des Schuelers in Richtung des gesamten Parametersatzes des Lehrers ziehen.
Alex Clouds Metapher trifft es gut: In einem neuronalen Netz sind die Parameter wie die Faeden einer Marionette. Zieht man an einem Faden, um den Schueler beim Zaehlen naeher an den Lehrer heranzufuehren, bewegen sich unvermeidlich alle anderen Faeden mit. Einschliesslich derjenigen, die die Vorliebe fuer Eulen steuern.
Das Problem: Diese Signale sind unsichtbar. Das Lehrermodell selbst kann nicht besser als der Zufall bestimmen, welche Zahlen das "Eulensignal" tragen. Kein semantischer Filter kann sie erkennen, weil sie keinen Inhalt transportieren. Es ist Rauschen mit Nutzlast.
Nicht nur Eulen: auch gefaehrliche Verhaltensweisen
Das Eulen-Experiment ist sympathisch. Weit weniger sympathisch ist, dass derselbe Mechanismus mit Misalignment-Merkmalen funktioniert: potenziell gefaehrliche Verhaltensweisen, die niemand in einem oeffentlich eingesetzten Modell sehen moechte.
Die Forscher testeten mit einem "Lehrer"-Modell, das auf problematische Antworten trainiert war. Selbst nach dem Filtern verdaechtiger Daten (einschliesslich Zahlen wie 666 oder 911, fuer den Fall erkennbarer Signale) erbten die Schueler die gefaehrlichen Tendenzen. Der Filter ist nutzlos, wenn das Signal unter der Erkennungsschwelle liegt.
Hier wird der Befund fuer die Branche konkret beunruhigend. Der vorherrschende Ansatz in der KI-Sicherheit ist genau dieses "Distill-and-Filter": die Ausgaben eines grossen Modells nehmen, problematische Inhalte herausfiltern und den Rest zum Trainieren kleinerer Modelle verwenden. Wenn sich unerwuenschte Verhaltensweisen ueber unsichtbare Kanaele durch die Filter schleichen, muss dieser gesamte Ansatz ueberdacht werden.
Man baut keine KI, man kultiviert sie
Eine wichtige Einschraenkung: Der Effekt funktioniert nur, wenn Lehrer und Schueler dasselbe Basismodell teilen. Ein GPT-4.1-nano-Lehrer uebertraegt seine Praeferenzen nicht auf einen Qwen-2.5-Schueler. Der Mechanismus ist also nicht universell, sondern abhaengig von der gemeinsamen Architektur.
Merve Hickok vom AI Now Institute vermutet, dass die Datenfilterung in den Experimenten moeglicherweise einfach unvollstaendig war. Die Forscher entgegnen, dass selbst die Originalmodelle "tragende" Zahlen nicht von anderen unterscheiden koennen. Das Signal ist vorhanden, aber nicht erkennbar.
Alex Cloud fasst die Lage mit einem bemerkenswerten Satz zusammen: KI-Modelle seien "besser als 'kultiviert' denn als 'konstruiert' beschrieben". Man entwirft eine KI nicht wie eine Bruecke. Man pflanzt etwas, giesst es mit Daten und hofft, dass das Ergebnis dem entspricht, was man beabsichtigt hat. Ohne Garantie dafuer, was in neuen Kontexten zum Vorschein kommt.
Und jetzt?
Wenn Sie sich fuer KI-Sicherheit interessieren, veraendert diese Studie die Ausgangslage. Es reicht nicht mehr, Trainingsdaten zu pruefen, um sicheres Verhalten zu garantieren. Man muss auch untersuchen, woher die Quellmodelle stammen, wie die Daten erzeugt wurden und von wem.
Das vollstaendige Paper ist auf der Website von Anthropic verfuegbar, die begutachtete Version findet sich in Nature (Band 652, 2026). Es ist technische Lektuere, aber die Versuchsdiagramme sind zugaenglich und gut illustriert. Ein konkreter Denkansatz: Wenn das naechste Mal ein Unternehmen behauptet, seine KI sei "aligned", weil die Daten gefiltert wurden, fragen Sie sich, ob der Filter an der richtigen Stelle sucht.



