KI-Modell Claude diagnostiziert präziser als Ärzte – mit Einschränkungen
Eine JAMA-Studie attestiert Anthropics Claude-Modell höhere Diagnosegenauigkeit als Medizinern. Doch die Methodik offenbart erhebliche Limitationen – eine Einordnung der Ergebnisse.

KI schlägt Mediziner – auf dem Papier
Eine im renommierten Journal of the American Medical Association (JAMA) veröffentlichte Studie sorgt für Aufsehen: Das KI-Sprachmodell Claude 3.5 Sonnet von Anthropic erreichte bei standardisierten Diagnosefällen eine Genauigkeit von 81 Prozent – deutlich über den 74 Prozent, die Ärzte ohne KI-Unterstützung erzielten.
Die Schlagzeile klingt revolutionär. Doch bevor Sie Ihren Hausarzt gegen ein Abo bei Anthropic austauschen, lohnt ein Blick auf die Methodik und ihre Grenzen.
Studiendesign: 50 Ärzte, drei Szenarien
Die Forscher rekrutierten 50 Mediziner und konfrontierten sie mit standardisierten klinischen Fallakten – keine realen Patienten, sondern präzise dokumentierte Szenarien mit Symptomen, Anamnese und Laborbefunden.
Die Ärzte arbeiteten unter drei Bedingungen:
- Ohne KI-Unterstützung: rein menschliches Urteil (74% Genauigkeit)
- Mit ChatGPT: KI als Hilfsmittel
- Mit Claude 3.5 Sonnet: KI als Hilfsmittel (Ärzte erreichten 76%)
Claude allein, ohne menschliche Intervention, diagnostizierte mit 81 Prozent Genauigkeit – präziser als beide Arzt-KI-Kombinationen.
Das Paradox: Ärzte nutzen KI ineffektiv
Besonders bemerkenswert: Die Kombination aus Arzt und Claude schnitt schlechter ab als Claude solo. Mediziner mit KI-Assistenz erreichten nur 76 Prozent, kaum besser als die 74 Prozent ohne technische Unterstützung.
Die Interpretation der Studienautoren: Ärzte integrieren KI-Vorschläge nicht systematisch in ihre Entscheidungsprozesse. Statt die Differentialdiagnosen der KI kritisch zu prüfen und mit eigenem Wissen abzugleichen, scheinen Mediziner entweder die Vorschläge zu ignorieren oder sich unkritisch darauf zu verlassen.
Dieses Ergebnis wirft Fragen zur klinischen Integration von KI-Tools auf. Technologie allein verbessert die Diagnosequalität nicht – entscheidend ist, wie Fachpersonal sie einsetzt.
Methodische Grenzen: Was die Studie nicht misst
Die JAMA-Studie liefert wertvolle Daten zur Mustererkennung in Fallakten, bildet aber nicht die Realität der medizinischen Praxis ab.
Nicht erfasst wurden:
- Körperliche Untersuchungen: Palpation, Auskultation, neurologische Tests – zentrale diagnostische Verfahren
- Arzt-Patienten-Kommunikation: Anamnese-Gespräche, bei denen Mimik, Tonfall und Kontextinformationen entscheidend sein können
- Komplexe Komorbiditäten: Patienten mit mehreren Grunderkrankungen, Polymedikation, atypischen Verläufen
- Psychosoziale Faktoren: Lebensumstände, Compliance, kulturelle Aspekte der Versorgung
- Entscheidungen unter Zeitdruck: Notfallmedizin, Triage, ressourcenbeschränkte Szenarien
Die Studie misst eine Teilkompetenz – Differentialdiagnose anhand schriftlicher Daten –, nicht die Gesamtleistung medizinischer Versorgung.
Claude 3.5: Spezialisiert auf Textanalyse
Das getestete Modell, Claude 3.5 Sonnet, ist ein hochspezialisiertes System zur Verarbeitung komplexer Textdaten. Seine Stärke liegt in der Mustererkennung über große Datenmengen – genau das, was bei schriftlichen Fallakten gefragt ist.
Für strukturierte diagnostische Aufgaben, bei denen alle relevanten Informationen als Text vorliegen, zeigt das Modell beeindruckende Leistung. Doch dieser Kontext ist ein Idealszenario für KI, während er für menschliche Mediziner eine artifizielle Reduktion ihrer Fähigkeiten darstellt.
Implikationen für die Praxis
Die Studie liefert keine Rechtfertigung, Ärzte durch Algorithmen zu ersetzen. Sie zeigt jedoch, wo KI ergänzende Unterstützung bieten kann:
- Zweitmeinungen bei Differentialdiagnosen: KI als systematischer Check gegen Confirmation Bias
- Triage-Unterstützung: Priorisierung von Fällen nach Dringlichkeit
- Wissenszugang: Aktuelle Leitlinien, Studien, seltene Erkrankungen auf Abruf
Entscheidend bleibt die Integration in Workflows: Ärzte müssen lernen, KI-Vorschläge kritisch zu bewerten, nicht blind zu übernehmen oder reflexhaft abzulehnen.
Fazit: Werkzeug, kein Ersatz
Claude diagnostiziert auf Papier präziser als Mediziner. Doch Medizin ist mehr als Textanalyse. Die körperliche Untersuchung, das Gespräch, der Umgang mit Unsicherheit, die ethische Abwägung – das bleibt menschliche Domäne.
Die JAMA-Studie ist kein Beleg für die Überlegenheit künstlicher Intelligenz in der Medizin. Sie ist ein Argument für durchdachte Integration: KI als diagnostisches Werkzeug, das menschliches Urteil schärft, nicht ersetzt.



