Was ist ein medizinischer KI-Scribe?

Ein medizinischer KI-Scribe ist eine Software, die das Gespräch zwischen Ärztin und Patient mithört und anschließend automatisch die klinische Notiz für die Patientenakte erstellt. Ziel ist es, das ärztliche Personal von der manuellen Dokumentation zu entlasten.

Wie viele Ärztinnen und Ärzte in Ontario nutzen einen KI-Scribe?

Laut dem am 12. Mai 2026 veröffentlichten Bericht von Generalauditorin Shelley Spence setzen rund 5.000 Ärztinnen und Ärzte in Ontario einen KI-Scribe ein. Sie sparen damit nach eigenen Angaben fünf bis sieben Stunden pro Woche.

Was sind die zentralen Ergebnisse des Ontario-Audits?

Von 20 geprüften Werkzeugen haben 12 ein anderes Medikament dokumentiert als das verordnete, 9 haben Behandlungen erfunden, die im Gespräch nie erwähnt wurden, und 17 haben kritische Hinweise zur psychischen Gesundheit übersehen. Durchschnittliche Genauigkeit: 12 von 20.

Warum wurden diese KI-Scribes trotz der Fehler zugelassen?

In der Bewertungsmatrix von Supply Ontario zählte die Genauigkeit der Notizen lediglich 4 Prozent der Gesamtwertung, die lokale Präsenz in Ontario hingegen 30 Prozent. Elf der zwanzig Anbieter hatten die geforderten externen Audits nicht vorgelegt und wurden dennoch zugelassen.

Sind die Ärztinnen und Ärzte verpflichtet, die KI-generierten Notizen zu prüfen?

Nein. Die Regierung Ontarios hat Leitlinien zur manuellen Überprüfung veröffentlicht, ohne sie verpflichtend zu machen. Eine systematische Kontrolle ist daher weder vorgeschrieben noch nachprüfbar.

Ontario-Audit: KI-Scribes verfehlen 60 Prozent Medikamente

Fünftausend Ärztinnen und Ärzte in Ontario lassen ihre Konsultationen inzwischen von einer Software mit künstlicher Intelligenz transkribieren. Sie sparen dadurch nach eigenen Angaben fünf bis sieben Stunden pro Woche. Am 12. Mai hat die Generalauditorin der Provinz, Shelley Spence, die Ergebnisse eines Audits zu 20 dieser Werkzeuge veröffentlicht. Alle waren von Supply Ontario für den klinischen Einsatz freigegeben worden. Durchschnittliche Genauigkeit in simulierten Konsultationen: 12 von 20.

Neun dieser zwanzig Scribes haben Behandlungen erfunden, die im Gespräch nie vorkamen, darunter ein Verweis auf eine vollständige Herzablation. Zwölf von zwanzig haben ein anderes Medikament dokumentiert als das verordnete. Siebzehn von zwanzig haben entscheidende Informationen zur psychischen Gesundheit der Patientinnen und Patienten übersehen. Der Bericht betrifft keinen Hochschulprototyp. Er betrifft Werkzeuge, die bereits in den Praxen eingesetzt werden.

Der angeblich einfache Anwendungsfall

Seit zwei Jahren nehmen KI-Scribes denselben Platz im Narrativ der vernetzten Medizin ein. Sie sollten den Wert medizinischer KI durch das Beispiel beweisen. Der Nutzen war leicht verständlich: das ärztliche Personal von der Dokumentation entlasten, damit es die Patientin oder den Patienten wieder anschauen kann. Das Risiko schien begrenzt: transkribieren, nicht diagnostizieren. Die institutionelle Validierung war vorhanden, nachdem Ontario nach einem Vergabeverfahren von Supply Ontario offiziell 20 Anbieter gelistet hatte.

Es ist der sanfteste Einstieg, den man sich für ein Sprachmodell in einer Konsultation vorstellen kann. Keine Dosisberechnung, keine Bildinterpretation, keine therapeutische Entscheidung. Nur eine angereicherte Transkription. Wenn dieser Fall trägt, lässt sich über die anderen reden.

Das Audit vom 12. Mai zerlegt diese Abfolge. Der einfachste Fall trägt nicht, und er trägt nicht aus Gründen, die wenig mit der Technologie selbst zu tun haben.

Der eigentliche Fehler liegt im Verfahren

Das aufschlussreichste Element des Berichts ist nicht die Liste der Fehler. Es ist die Gewichtung, die diese Werkzeuge überhaupt zugelassen hat.

In der Bewertungsmatrix von Supply Ontario zählte die Genauigkeit der KI-generierten medizinischen Notizen 4 Prozent der Gesamtwertung. Das Kriterium "lokale Präsenz in Ontario" wurde mit 30 Prozent gewichtet. Elf der zwanzig Anbieter haben die geforderten externen Auditberichte oder das ISO-27001-Zertifikat nicht vorgelegt. Fünf von ihnen haben weder eine Risikobewertung noch eine Datenschutz-Folgenabschätzung eingereicht. Alle wurden zugelassen.

Auf dem öffentlichen Markt Ontarios für medizinische Transkription war es also wichtiger, in Toronto ansässig zu sein, als präzise Notizen zu liefern. Die Regierung hatte eine Ausschreibung aufgesetzt, in der die regionale Wirtschaftsförderung siebenmal schwerer wog als die Patientensicherheit. Die KI hat dabei nichts entschieden. Die Verfasserinnen und Verfasser des Lastenhefts schon.

Die ministerielle Verteidigung trägt nicht

Auf den Bericht angesprochen, hat Minister Stephen Crawford zwei Argumente vorgebracht. Erstens, dass die Halluzinationen in der Testphase aufgetreten seien und nicht in echten Konsultationen. Zweitens, dass die Ärztinnen und Ärzte die Notizen vor der Übernahme in die Patientenakte überprüften.

Beide Einwände wackeln bei der ersten Überprüfung.

Die ursprüngliche Bewertung, die zur Zulassung der 20 Werkzeuge führte, sei laut Bericht "vor mehreren Jahren durchgeführt" worden. In der Zwischenzeit dokumentieren 5.000 Ärztinnen und Ärzte in Ontario ihre Konsultationen mit diesen Werkzeugen. Der Kontrast zwischen "Testphase" und einem Einsatz in dieser Größenordnung legt nahe, dass die Testphase jetzt stattfindet, und zwar an realen Patientinnen und Patienten. Die Auditorin selbst berichtet, dass sie bei einer eigenen Konsultation eine fehlerhafte Notiz festgestellt hat.

Die verpflichtende Überprüfung durch das ärztliche Personal wiederum existiert regulatorisch nicht. Die Regierung hat Leitlinien veröffentlicht, die eine manuelle Prüfung empfehlen. Empfehlen ist nicht Vorschreiben. Wenn ein Arzt oder eine Ärztin dank eines Werkzeugs fünf bis sieben Stunden pro Woche gewinnt, liegt der ökonomische Anreiz nicht auf der Seite der Kontrolle.

Warum sich der Blick auf den KI-Einsatz im Gesundheitswesen verändert

Der Vorgang dokumentiert weniger die Untauglichkeit der KI für die Medizin als das Versagen eines Marktzulassungsverfahrens, das die klinische Genauigkeit zugunsten eines wirtschaftlichen Kriteriums untergewichtet hat. Das Kernproblem sitzt in der Validierungsmethode, nicht im Sprachmodell unter der Haube.

Der Vergleich mit Europa ist aufschlussreich. In den Niederlanden führt das RIGH:T-Konsortium Einrichtungen des Gesundheitswesens zusammen, um vor dem Einsatz einen Validierungsrahmen für KI-Scribes zu entwickeln, mit ausdrücklicher Messung von Halluzinationen, fehlenden Informationen und Verzerrungen. Frankreich und mehrere Länder der Europäischen Union befinden sich in der Pilotphase, ohne einen öffentlich zugänglichen Auditbericht in Ontarios Größenordnung. Der AI Act stuft diese Werkzeuge seit 2025 als "hochriskant" ein, was theoretisch eine anspruchsvollere Vorabbewertung verlangt.

Die europäische Abfolge ist langsamer und vorsichtiger. Ontario hat das Gegenteil getan: erst einsetzen, dann prüfen. Der Bericht von Shelley Spence ist die Rechnung für diese Entscheidung.

Was das für die nächsten Schritte bedeutet

Der Bericht enthält zehn Empfehlungen. Das Ministerium hat fünf davon angenommen. Keine davon verpflichtet bislang zum Rückzug der mangelhaften Werkzeuge. Keine schreibt eine verpflichtende Überprüfung vor. Die Maschinerie läuft weiter, während die Korrekturen diskutiert werden.

Die Scribes sollten der einfache Test sein. Diagnostische KI, Verordnungsunterstützung und automatisierte Bildgebung sind materiell deutlich riskantere Fälle. Wenn ein öffentliches Vergabeverfahren bei einem Transkriptionswerkzeug akzeptiert hat, Genauigkeit mit 4 Prozent zu gewichten, lässt sich nach der Matrix fragen, die für die kommenden Anwendungsfälle zum Einsatz kommt.

KI im Gesundheitswesen wird funktionieren. Nicht so, und nicht sofort. Am 12. Mai 2026 hat Ontario gezeigt, dass sich der Schwerpunkt der operativen Frage verschoben hat: Die Technologie ist den Verwaltungen, die sie einkaufen sollen, inzwischen voraus.