KI verbessert Ihre Ergebnisse und zerstört Ihr Urteilsvermögen
KI macht Sie leistungsfähiger. Doch eine Reihe von Studien zeigt, dass sie gleichzeitig Ihre Fähigkeit abbaut, Fehler der KI zu erkennen.

Eine 2025 in Computers in Human Behavior veröffentlichte Studie ließ 246 Personen einen Logiktest absolvieren -- die Art von Aufgaben, die man in US-amerikanischen Aufnahmetests für Jurastudien findet. Die Hälfte nutzte ChatGPT, die andere Hälfte nicht.
Ergebnis: Die KI-Nutzer erzielten bessere Werte. Im Durchschnitt +3 Punkte. KI funktioniert -- keine Überraschung.
Doch dann stellten die Forscher eine andere Frage: "Wie gut glauben Sie, abgeschnitten zu haben?" Es zeigte sich etwas Merkwürdiges. Die KI-Nutzer überschätzten ihr Ergebnis nicht nur -- sie überschätzten es um zusätzliche 4 Punkte.
Sie werden besser. Sie denken, noch besser zu sein, als Sie tatsächlich sind. Dazwischen liegt ein kognitiver blinder Fleck, den KI gerade vertieft.
Was Metakognition bedeutet
Metakognition ist die Fähigkeit, die eigenen Denkprozesse zu überwachen. Vereinfacht: zu wissen, was man weiß, was man nicht weiß -- und vor allem zu erkennen, wenn man irrt.
Es ist ein interner Korrekturmechanismus. Wenn Sie ein Problem lösen und etwas nicht stimmt, schlägt Ihre Metakognition Alarm. Wenn Sie einen Satz erneut lesen und merken, dass er nicht hält, dasselbe.
Genau diesen Mechanismus unterbricht KI.
Die Schleife, die reißt
Wenn Sie KI einsetzen, um etwas zu produzieren -- eine Analyse, einen Text, eine Diagnose -- delegieren Sie die Aufgabe. Soweit logisch.
Das Problem: Sie delegieren auch die Bewertung der Aufgabe. Das kognitive Feedback, das Ihnen normalerweise sagt "das war schwierig" oder "da war ich unsicher", verschwindet. KI liefert eine flüssige, souveräne, gut strukturierte Antwort. Und Sie können nicht mehr sagen, ob sie gut ist, weil sie tatsächlich gut ist, oder weil sie gut aussieht.
Ein systematisches Review, 2025 bei Springer Nature veröffentlicht (35 analysierte Studien), hat dieses Phänomen im großen Maßstab gemessen: 58,9 % der Nutzer vertrauen ChatGPT-Outputs blind, ohne Überprüfung. Das ist keine Faulheit. Es ist ein seit den 1990er-Jahren dokumentierter kognitiver Bias: Automatisierungsbias.
Das Paradox des erfahrenen Nutzers
Dies ist vielleicht der kontraintitivste Befund: In derselben Studie wiesen Teilnehmer mit der höchsten KI-Kompetenz (diejenigen, die am besten verstehen, wie diese Systeme funktionieren) eine noch ungenauere Metakognition auf als Anfänger.
Anders formuliert: Sich mit KI auseinanderzusetzen schützt nicht vor dem Problem. In manchen Fällen verschlimmert es es.
Die wahrscheinliche Erklärung: Je vertrauter Sie mit KI sind, desto mehr Kredit geben Sie ihr, und desto seltener lösen Sie Ihren internen Alarm aus. Vertrauen in das Werkzeug ersetzt Wachsamkeit. Das ist keine Frage der Kompetenz. Es ist eine kognitive Dynamik.
Die Maschinen wissen selbst nicht, wann sie irren
Was die Situation besonders heikel macht: Das Problem ist symmetrisch.
Eine 2025 auf arXiv veröffentlichte Studie evaluierte 4 LLMs anhand von 24.000 Fragen und maß ihre Kalibrierung -- also ihre Fähigkeit zu wissen, wann ihre Antworten verlässlich sind. Der Expected Calibration Error (ECE) misst die Lücke zwischen der vom Modell geäußerten Sicherheit und seiner tatsächlichen Genauigkeit.
Kimi K2 zeigte einen ECE von 0,726 bei nur 23,3 % Genauigkeit. Das Modell äußerte hohes Vertrauen bei massenhaft falschen Antworten. Claude Haiku 4.5 war besser kalibriert (ECE 0,122), doch das Problem besteht in allen Modellen in unterschiedlichem Ausmaß.
Ergebnis: Ein schlecht kalibrierter Mensch interagiert mit einer schlecht kalibrierten Maschine. Beide Dysfunktionen verstärken einander.
Wenn es aufhört, theoretisch zu sein
In der Mammografie nahmen 27 Radiologen an einer 2023 in Radiology veröffentlichten Studie teil. Sie lasen Mammografien mit KI-Unterstützung, wobei die KI gelegentlich falsche Hinweise gab.
Wenn die KI irrte, fielen unerfahrene Radiologen unter 20 % Genauigkeit. Experten sanken von 82 % auf 45,5 %. Novizen folgten den falschen KI-Empfehlungen viermal häufiger als Experten (P = ,009).
Das ist kein Einzelfall. Es handelt sich um eine kontrollierte Studie, und die Ergebnisse zeigen, dass Automatisierungsbias selbst bei ausgebildetem Gesundheitsfachpersonal einsetzt.
Im Versicherungswesen ist der Fall noch deutlicher. UnitedHealth nutzte einen Algorithmus namens nH Predict, um Medicare-Patienten die Übernahme von Nachsorgekosten zu verweigern. Bekannte Fehlerquote: 90 % der Ablehnungen werden in Widerspruchsverfahren aufgehoben.
Der Algorithmus war profitabel, weil nur 0,2 % der Versicherten Widerspruch einlegen. Im Februar 2025 weigerte sich ein US-Bundesgericht, die Klage abzuweisen. Der Prozess läuft.
Was man konkret tun kann
Es gibt keine perfekte Lösung. Aber einige Prinzipien reduzieren das Risiko.
Reibung bei wichtigen Entscheidungen einbauen. Bei bedeutenden Themen -- Gesundheit, Recht, Finanzen -- sollte eine systematische manuelle Prüfung verpflichtend sein, nicht optional. Dass KI flüssig formuliert, bedeutet nicht, dass sie recht hat.
Die KI nach ihren Grenzen fragen, nicht nur nach ihrer Antwort. "Was ist deine Antwort" ist eine weniger nützliche Frage als "Was sind die Grenzen deiner Antwort, und wo könntest du hier irren?"
Neuere Modelle können ihre Unsicherheitsbereiche teilweise benennen, wenn man direkt fragt.
Aufgaben bewahren, bei denen man selbst urteilt. Alles in einem Bereich an KI zu delegieren bedeutet auch, den internen Korrekturmechanismus nicht mehr zu trainieren. Metakognitive Kompetenz verkümmert wie jede andere Kompetenz ohne Übung.
Das ist kein Aufruf, KI weniger zu nutzen. Es ist eine Erinnerung daran, dass Vertrauen in ein Werkzeug proportional zur Fähigkeit sein sollte, seine Outputs zu überprüfen -- und dass genau diese Fähigkeit KI erodieren kann, wenn man nicht aufpasst.



