Scribes IA en Ontario : 60% se trompent de médicament

5 min de lecture
Article

L'Auditrice générale de l'Ontario a testé 20 scribes IA approuvés par la province. Score moyen : 12 sur 20. Le cas d'usage le plus simple de l'IA en santé vient d'échouer.

La newsletter IA gratuite
Scribes IA en Ontario : 60% se trompent de médicament

Cinq mille médecins ontariens utilisent un logiciel d'intelligence artificielle qui transcrit leurs consultations à leur place. Ils gagnent en moyenne cinq à sept heures par semaine. Le 12 mai, l'Auditrice générale de la province, Shelley Spence, a publié les résultats d'un audit sur 20 de ces outils, tous approuvés par Supply Ontario pour usage clinique. Score moyen de précision sur conversations simulées : 12 sur 20.

Neuf de ces vingt scribes ont inventé des traitements qui n'existaient pas dans la conversation, dont une référence pour ablation totale du cœur. Douze sur vingt ont consigné un médicament différent de celui prescrit. Dix-sept sur vingt ont raté des informations critiques liées à la santé mentale du patient. L'audit ne concerne pas un prototype universitaire. Il concerne des outils déjà déployés dans les cabinets.

Le cas d'usage qu'on présentait comme facile

Depuis deux ans, les scribes IA tiennent la même place dans le récit de la santé connectée. Ce sont les outils qui devaient prouver la valeur de l'intelligence artificielle médicale par l'exemple. Le bénéfice était lisible : libérer le médecin de la prise de notes pour qu'il regarde le patient. Le risque semblait borné : on transcrit, on ne diagnostique pas. La validation institutionnelle était là, l'Ontario ayant officiellement référencé 20 fournisseurs après une procédure de Supply Ontario.

C'est la pente la plus douce qu'on puisse introduire pour glisser un modèle de langage dans une consultation. Pas de calcul de posologie, pas d'interprétation d'imagerie, pas de décision thérapeutique. Juste une transcription enrichie. Si ce cas tient, on peut commencer à parler des autres.

L'audit du 12 mai démolit cette séquence. Le cas le plus simple ne tient pas, et il ne tient pas pour des raisons qui ont peu à voir avec la techno elle-même.

Le vrai bug est dans la procédure

L'élément le plus révélateur du rapport n'est pas la liste des erreurs. C'est la pondération qui a permis à ces outils d'être approuvés.

Dans la grille d'évaluation de Supply Ontario, la précision des notes médicales générées par l'IA comptait pour 4% du score total. Le critère "présence locale en Ontario" pesait 30%. Onze fournisseurs sur vingt n'ont pas soumis les rapports d'audit tiers ou la certification ISO 27001 pourtant requis. Cinq d'entre eux n'ont rendu ni évaluation des risques ni étude d'impact sur la vie privée. Tous ont été approuvés.

Autrement dit, sur le marché public ontarien de la transcription médicale, mieux valait être basé à Toronto que produire des notes exactes. Le gouvernement avait construit un appel d'offres où le développement économique régional pesait sept fois plus que la sécurité des patients. L'IA n'a rien décidé là-dedans. Les rédacteurs du cahier des charges, si.

La défense ministérielle ne tient pas

Interrogé sur le rapport, le ministre Stephen Crawford a opposé deux arguments. D'abord que les hallucinations sont apparues en phase de test, pas pendant les consultations réelles. Ensuite que les médecins relisent les notes avant de les valider dans le dossier patient.

Les deux objections vacillent à la première vérification.

L'évaluation initiale qui a abouti à l'approbation des 20 outils a, selon le rapport, "été faite il y a plusieurs années". Pendant ce temps, 5 000 praticiens ontariens consignent leurs consultations avec ces outils. Le contraste entre "phase de test" et déploiement à cette échelle suggère que la phase de test, c'est maintenant, et qu'elle se passe sur de vrais patients. L'Auditrice elle-même rapporte avoir constaté une note imprécise lors d'une consultation personnelle.

Quant à la relecture obligatoire par le médecin, elle n'existe pas au sens réglementaire. Le gouvernement a publié des lignes directrices recommandant la révision manuelle. Recommander n'est pas imposer. Quand un médecin gagne cinq à sept heures par semaine grâce à un outil, l'incitation économique à relire chaque ligne n'est pas du côté du contrôle.

Pourquoi ça change la lecture du déploiement IA santé

L'événement documente moins l'inadaptation de l'IA à la médecine que la défaillance d'une procédure de mise sur le marché qui a sous-pondéré la précision clinique au profit du critère économique. Le problème principal vit dans la méthode de validation, et non dans le modèle de langage utilisé sous le capot.

La comparaison avec l'Europe est instructive. Aux Pays-Bas, le consortium RIGH:T réunit des établissements de santé pour bâtir un cadre de validation des scribes IA avant déploiement, avec mesure explicite des hallucinations, des informations manquantes et des biais. La France et plusieurs pays de l'Union européenne sont en phase pilote, sans rapport d'audit grand public comparable à celui de l'Ontario. L'AI Act classe ces outils en "haut risque" depuis 2025, ce qui impose en théorie une évaluation préalable plus exigeante.

Le séquençage européen est plus lent, et plus prudent. L'Ontario a fait l'inverse : déployer, puis auditer. Le rapport de Shelley Spence est la facture de ce choix.

Ce que ça implique pour la suite

Le rapport contient dix recommandations. Le ministère en a accepté cinq. Aucune n'impose, à ce stade, le retrait des outils défaillants. Aucune n'impose la relecture obligatoire. La machine continue de tourner pendant que les corrections se discutent.

Les scribes étaient censés être l'épreuve facile. Le diagnostic IA, l'aide à la prescription, l'imagerie automatisée sont des cas matériellement plus risqués. Si une procédure publique a accepté de pondérer la précision à 4% pour un outil de transcription, on peut s'interroger sur la grille qui sera utilisée pour les usages suivants.

L'IA en santé fonctionnera. Pas comme ça, et pas tout de suite. Le 12 mai 2026, l'Ontario vient de démontrer que la question opérationnelle a déplacé son centre de gravité : la techno est désormais en avance sur les administrations chargées de l'acheter.

Sujets abordés :

SantéDécryptage

Questions fréquentes

Qu'est-ce qu'un scribe IA médical ?
Un scribe IA est un logiciel qui écoute la consultation entre un médecin et son patient, puis génère automatiquement la note clinique destinée au dossier patient. L'objectif est de libérer le praticien de la prise de notes.
Combien de médecins ontariens utilisent un scribe IA ?
Environ 5 000 médecins en Ontario utilisent un scribe IA, selon le rapport publié le 12 mai 2026 par l'Auditrice générale Shelley Spence. Ces praticiens gagnent en moyenne cinq à sept heures par semaine.
Quels sont les principaux résultats de l'audit ontarien sur les scribes IA ?
Sur 20 outils audités, 12 ont consigné un médicament différent de celui prescrit, 9 ont inventé des traitements absents de la conversation et 17 ont raté des informations critiques sur la santé mentale. Le score moyen de précision est de 12 sur 20.
Pourquoi ces scribes IA ont-ils été approuvés malgré les erreurs ?
Dans la grille d'évaluation de Supply Ontario, la précision des notes ne pesait que 4% du score total, contre 30% pour la présence locale en Ontario. Onze vendeurs sur vingt n'avaient pas fourni les audits tiers requis et ont quand même été retenus.
Les médecins sont-ils tenus de relire les notes générées par l'IA ?
Non. Le gouvernement ontarien a publié des lignes directrices recommandant la révision manuelle, mais sans la rendre obligatoire. La relecture systématique n'est donc ni imposée ni vérifiée.
La newsletter IA gratuite