Une étude publiée dans Nature appelle à la prudence face aux conseils médicaux de ChatGPT

0
103

Une nouvelle étude scientifique invite à la prudence quant à l’utilisation des outils d’intelligence artificielle pour obtenir des conseils médicaux. Selon des chercheurs, ChatGPT Health peut éprouver des difficultés à détecter certaines situations nécessitant une prise en charge d’urgence, malgré ses performances globalement satisfaisantes dans les cas médicaux les plus évidents.

Chaque semaine, plus de 230 millions de personnes sollicitent ChatGPT pour des questions liées à la santé, selon les données d’OpenAI. Les utilisateurs y cherchent des informations variées, allant de la vérification de la sécurité alimentaire à la gestion des allergies, en passant par des remèdes pour soulager un rhume. Toutefois, si l’outil peut fournir des réponses utiles dans des situations simples ou « scolaires », une nouvelle étude publiée dans la revue scientifique Nature souligne certaines limites lorsqu’il s’agit d’identifier des urgences médicales. Les chercheurs ont constaté que, bien que le système reconnaisse généralement les situations d’urgence évidentes, il a sous-estimé plus de la moitié des cas nécessitant une prise en charge immédiate. « Nous voulions répondre à une question très simple mais cruciale : si quelqu’un est confronté à une véritable urgence médicale et se tourne vers ChatGPT Health pour obtenir de l’aide, l’outil lui dira-t-il clairement de se rendre aux urgences ? », explique Ashwin Ramaswamy, auteur principal de l’étude et chercheur au Mount Sinai à New York. Selon lui, l’outil s’est montré performant dans certaines situations critiques bien connues. « ChatGPT Health s’est bien comporté dans les urgences classiques, comme l’accident vasculaire cérébral ou les réactions allergiques sévères », précise-t-il. En revanche, le modèle de langage rencontre davantage de difficultés lorsque la gravité de la situation n’est pas immédiatement évidente. Les chercheurs citent notamment un scénario d’asthme analysé dans l’étude. Dans ce cas précis, le système a correctement identifié dans son raisonnement les premiers signes d’une insuffisance respiratoire. Pourtant, malgré cette analyse, il a conseillé d’attendre plutôt que de rechercher immédiatement des soins d’urgence. Pour mener leur analyse, l’équipe de recherche a élaboré 60 scénarios cliniques structurés couvrant 21 spécialités médicales différentes. Les situations étudiées allaient de troubles bénins pouvant être traités à domicile à de véritables urgences vitales. Trois médecins indépendants ont évalué chaque scénario afin de déterminer le niveau d’urgence approprié, en s’appuyant sur les recommandations émises par 56 sociétés médicales. Les réponses générées par ChatGPT Health ont ensuite été comparées à ces références cliniques. ChatGPT Health, lancé par OpenAI en janvier 2026, propose aux utilisateurs de connecter certaines données de santé personnelles afin d’obtenir des réponses plus personnalisées. Il peut notamment intégrer des informations issues de dossiers médicaux ou de plateformes de bien-être et de suivi de santé, comme l’application MyFitnessPal. L’étude s’est également intéressée à la manière dont le modèle réagit lorsque des utilisateurs évoquent des intentions d’automutilation. Les résultats ont révélé des performances similaires en termes d’irrégularité dans les réponses. En théorie, ChatGPT Health est programmé pour encourager systématiquement une personne évoquant l’automutilation ou des idées suicidaires à chercher de l’aide et à contacter une ligne d’assistance spécialisée. Une bannière intitulée « De l’aide est disponible », renvoyant vers une ligne de soutien en cas de crise ou de suicide, est censée apparaître dans ces situations. Or, les chercheurs ont observé que cette bannière n’apparaissait pas de manière systématique au cours des tests réalisés. Plus surprenant encore, le dispositif s’est révélé plus fiable lorsque les utilisateurs n’avaient pas identifié de méthode d’automutilation que lorsqu’ils en avaient déjà mentionné une. « Ce schéma n’était pas seulement incohérent, mais paradoxalement inversé par rapport à la gravité clinique », souligne l’étude. Malgré ces limites, les chercheurs ne recommandent pas pour autant d’abandonner totalement les outils d’intelligence artificielle dans le domaine de la santé. « En tant qu’étudiante en médecine qui se forme à une époque où les outils d’IA en santé sont déjà entre les mains de millions de personnes, je les considère comme des technologies que nous devons apprendre à intégrer avec discernement dans les soins, plutôt que comme des substituts au jugement clinique », explique Alvira Tyagi, deuxième auteure de l’étude. Les auteurs de la recherche recommandent toutefois aux personnes dont les symptômes s’aggravent ou suscitent une inquiétude particulière de consulter directement un professionnel de santé. Cette précaution s’applique notamment en cas de douleurs thoraciques, d’essoufflement, de réactions allergiques sévères ou de modifications de l’état mental. Enfin, les chercheurs rappellent que les modèles d’intelligence artificielle évoluent rapidement et font l’objet de mises à jour régulières. Leurs performances peuvent donc changer avec le temps. « Commencer sa formation médicale aux côtés d’outils qui évoluent en temps réel montre bien que les résultats d’aujourd’hui ne sont pas gravés dans le marbre », conclut Alvira Tyagi.

Neila M

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici