ChatGPT pourra bientôt exercer la médecine !

Illustration générée par l’IA Craiyon

Le samedi 17 février 2023 - Mountain view, Californie - Ansible Health une startup américaine dirigée par des médecins qui fournit des services de soins à domicile aux patients atteints de BPCO publie dans la revue PLOS Digital Heath des travaux qui ont consisté à faire passer à ChatGPT l’USMLE (United States Medical Licensing Examination) (1).

Dans le détail, le robot a été soumis aux 3 examens de l’USMLE, que passent les carabins d’outre-Atlantique en 2eme, 4eme et 6eme année.  

ChatGPT a été testé sur 350 des 376 questions publiées sur le site de l'USMLE et qui faisaient partie de l'examen de juin 2022. Les questions non incluses dans l’étude se basaient sur une iconographie ou des graphiques, or, à cette heure, ChatGPT n’est pas en mesure de répondre à ce type de question. Ces questionnaires se présentent soit sous la forme de questions ouvertes, soit de questions à choix multiples sans justification et soit de question à choix multiples avec justification. Deux examinateurs ont noté le travail, et un troisième a tranché les écarts entre eux.

Certains experts extérieurs ont critiqué la méthode utilisée. Les chercheurs auraient en effet pu introduire un certain degré d'anonymisation en mélangeant des réponses d'humains à celles du robot, a notamment estimé, auprès de l’AFP, Nello Cristianini, professeur en intelligence artificielle à l'université de Bath au Royaume-Uni.

Sur le fil du rasoir

En ne prenant pas en compte les questions censurées par les investigateurs de l’étude, Chat GPT obtient 75 %, 61,5 % et 68,8 % de bonnes réponses aux 3 examens. C’est donc une réussite totale, un résultat de moins de 60 % à l’un des examens étant éliminatoire. En revanche, en comptant les questions censurées, ChatGPT n’obtient plus que 45,4 %, 54,1 % et 61,5 % et est donc recalé. On notera que ces résultats n’étaient pas significativement différents selon le format de la question, ainsi, pour les questions où il fallait rédiger une justification « ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications » s’enthousiasment les auteurs.

En revanche, ChatGPT se plante encore largement aux examens de spécialité. Début février, le Pr Gabriel Steg soumettait à ChatGPT un examen de cardiologie des ECN dans la revue Medscape. Résultat décevant pour le robot qui n’avait obtenu que 4 bonnes réponses sur 13. Le Pr Steg tempérait néanmoins : « Le score relativement faible obtenu par ChatGPT est à nuancer car certaines questions peuvent être jugées ambiguës ou critiquables et il est déjà impressionnant que ChatGPT soit en mesure de discuter les réponses aux différentes questions du dossier et de les argumenter, à fortiori si on considère qu’il y a au moins 4 bonnes réponses et si on prend en compte que les évolutions attendues dans un avenir proche vont considérablement améliorer la performance de ce type d’IA et que ChatGPT a la faculté d’apprendre des manuels rapidement et de façon complète. Faire lire les ouvrages de référence en cardiologie va rapidement transformer les performances de ce type d’IA, non seulement sur des pathologies relativement simples comme l’infarctus du myocarde mais encore plus sur des pathologies plus complexes.

On peut s’attendre à ce que dans les années à venir, les nouvelles générations d’IA fassent bien mieux que les étudiants en médecine… A nous de nous organiser pour utiliser ce qui doit être vu comme un outil bien plus qu’un concurrent. »

Plus de bachotage, plus de sous-colles plus de salle de garde, l’internat ne sera vraiment plus ce qu’il était…

F.H.

Référence
1. Kung TH et al. (2023) Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digit Health 2(2): e0000198. https://doi.org/10.1371/journal.pdig.0000198

Copyright © http://www.jim.fr

Réagir

Vos réactions (2)

  • N'empêche

    Le 18 février 2023

    Qu'à l'arrivée aux urgences, ce n'est pas ChatGPT qui va palper l'abdomen ou les aires ganglionnaires, poser un stéthoscope sur le crâne, chercher une torsion d'hydatite sessile, chercher une angiodermite segmentation, un TR...
    Il faudra toujours de bons cliniciens.
    Sur des paramètres pharmacologiques, on pourra peut-être mieux prescrire, et avoir des recommandations fiables.

    Pr André Muller

  • Réaction aux messages (post) choisis (best of) de fin de semaine

    Le 04 mars 2023

    Pourriez vous s'il vous plait éviter le franglais ? Sommes nous a ce point sous l'influence des anglo-saxons que nous manquons de mots ?
    Par ailleurs beaucoup de vos publications de survols d'articles sont au conditionnel. Chacun sait qu'il faut des confirmations.
    Un peu de lecture critique ne ferait pas de mal.

    Pr André Muller

Réagir à cet article

Les réactions sont réservées aux professionnels de santé inscrits et identifiés sur le site.
Elles ne seront publiées sur le site qu’après modération par la rédaction (avec un délai de quelques heures à 48 heures). Sauf exception, les réactions sont publiées avec la signature de leur auteur.


Lorsque cela est nécessaire et possible, les réactions doivent être référencées (notamment si les données ou les affirmations présentées ne proviennent pas de l’expérience de l’auteur).

JIM se réserve le droit de ne pas mettre en ligne une réaction, en particulier si il juge qu’elle présente un caractère injurieux, diffamatoire ou discriminatoire ou qu’elle peut porter atteinte à l’image du site.