Covid-19 : l’usage de l’IA et des données massives éclaire le débat éthique
La crise sanitaire engendrée par le Covid-19 révèle certaines possibilités et limites de l’IA en santé et du traitement massif des données de santé. Cet article présente un panorama non exhaustif de ces différents usages et se fait l’écho des questions éthiques en matière de vie privée que ces initiatives soulèvent et dont il nous faudra tirer collectivement des enseignements.
L’humanité a connu d’autres pandémies, mais elle n’a jamais eu autant de capacités technologiques pour l’affronter. S’il est encore trop tôt pour juger de la pertinence de l’IA dans la lutte contre le Coronavirus, on peut, néanmoins, observer qu’elle a déjà permis d’accélérer la recherche médicale. En effet, en 2002, plusieurs mois ont été nécessaires pour séquencer le génome du SRAS, alors que quelques semaines auront suffit aux scientifiques chinois pour séquencer celui du SRAS-COV-2 et le partager auprès de la communauté scientifique mondiale. Concernant l’étude du repliement des protéines, qui permet de mieux comprendre la façon dont le virus se propage, l’algorithme de prédiction Linearfold, développé par l’entreprise chinoise Baidu avec l’Université d’État de l’Oregon et l’Université de Rochester, l’a identifié en 27 secondes. La société canadienne Bluedot déclare avoir détecté la survenue du virus quelques jours avant l’annonce de l’OMS grâce à son système de veille qui intègre de l’intelligence artificielle. La société britannique BenevolentAI a utilisé sa plateforme de recherche médicale, qui s’appuie sur de l’apprentissage automatique, pour identifier des molécules agissant sur le virus et ses effets, livrant un candidat sérieux dès le début du mois de février.
L’autre domaine d’action majeur et prometteur de l’IA s’observe au sein du système de soin, notamment au sujet de l’aide au diagnostic. Spécialisée en diagnostic du cancer du poumon, l’entreprise chinoise Infervision a formé son IA afin qu’elle puisse identifier le Coronavirus. Une trentaine d’hôpitaux chinois l’ont mis en pratique auprès de 32 000 cas suspects, réduisant le temps d’analyse d’une quinzaine de minutes à quelques dizaines de secondes. Segenela, une société sud-coréenne de biologie moléculaire, a produit en quelques semaines seulement un kit de dépistage en s’appuyant sur son système d’IA. « Sans cette technologie, il aurait fallu plusieurs mois pour le développer », rapporte Chun Jong-yoon, le CEO de l’entreprise. François de Ruty, expliquait également lors d’une interview pour Impact AI, la pertinence de l’AI sur les questions logistiques dans le cas d’une urgence sanitaire.
Enfin, l’IA pourrait aider les États et les institutions sanitaires à réduire la vitesse de propagation du virus et à éviter un nouveau confinement, une solution certes efficace d’un point de vue sanitaire, mais qui engendre des problèmes sociaux, psychologiques et économiques conséquents. Ce domaine d’application de l’IA et des données soulève inévitablement des questions éthiques quant au respect de la vie privée (données personnelles, secret médical, etc.), car il se traduit par un contrôle plus ou moins individualisé de la population. Certains outils très liberticides ont ainsi été déployés en Corée du Sud, en Chine ou en Israël : géolocalisation des personnes contaminées, casques « intelligents » pour les forces de l’ordre afin de détecter des individus avec une température corporelle élevée, alertes automatiques auprès des autorités en cas de non respect d’une période de confinement, etc. Peut-on concevoir un dispositif IA et données permettant de concilier un contrôle efficace de la propagation du virus avec un respect de la vie privée des individus ?
La piste des applications de traçage de contacts privacy by design
« Le contact tracing ou traçage de contacts est une déclinaison numérique et collaborative des enquêtes de santé menées par les autorités sanitaires afin de remonter la chaîne de transmission », explique l’avocate et DPO Nathalie Chiche. La technologie permet de mettre en place une solution à plus grande échelle et plus réactive ». Le principe de ces applications : pouvoir alerter les personnes qui ont été en contact avec une personne contaminée par le virus afin de pouvoir rapidement les tester et les placer en isolement dans le cas où elles seraient elles-mêmes infectées. Différents projets d’application de traçage privacy by design émergent un peu partout : application StopCovid en France, Immuni en Italie, le standard commun proposé par Apple et Google en Allemagne, etc. Si ces applications ne font pas appel directement à de l’IA, elles collectent et traitent de façon massive des données particulièrement sensibles de mobilité et de santé. Elles peuvent alors éclairer les problématiques de vie privée face auxquelles l’IA pourrait se retrouver confrontée dans le domaine de la santé.
En fait, quelle que soit la technologie choisie, ces applications de traçage individuel inquiètent plusieurs chercheurs spécialistes en cryptographie, sécurité et droit des technologies, en raison de possibles abus, détournements et comportements malveillants. Jean-Michel Livoswky, DPO, préconise alors plusieurs garde-fous : « l’assurance d’un usage volontaire, l’ouverture du code source, la limitation de la durée de vie de l’application et du traçage ainsi que des dispositifs de contrôle associés à des sanctions ». Concernant le caractère volontaire, un problème d’efficacité a été soulevé par une étude d’Oxford estimant « que l’épidémie pourrait être stoppée seulement si environ 60% de la population utilisent une application de traçage de contacts », précisant néanmoins qu’une utilisation moindre permettrait déjà de ralentir l’épidémie. « Si l’application devenait obligatoire en France, rappelle Nathalie Chiche, le gouvernement serait contraint de passer par une mesure législative et l’application devra, dans tous les cas, respecter le RGPD : principe de proportionnalité, c’est-à-dire que les dommages causés à la vie privée soient à la hauteur de l’efficacité du dispositif ; minimisation des données en utilisant un identifiant plutôt que des données nominatives ; durée de conservation ; et sécurité en procédant au chiffrement de l’historique de connexions. Mais souhaitons-nous vraiment que la politique sanitaire soit gérée par une application ? Voulons-nous vraiment que le code fasse loi – code is law – comme s’en inquiétait, il y a 20 ans, le juriste Lawrence Lessig ? Ne faudrait-il pas plutôt renverser la phrase en law is code et créer un code numérique, comme il existe un code pénal ou un code civil ? »
Finalement, même en étant conçues de façon à respecter au mieux la vie privée des individus, les applications de traçage des contacts polarisent le débat entre sécurité et liberté, entre impératifs de santé publique et garantie des droits individuels, face auquel nous nous retrouvons collectivement et individuellement démunis. Sur quelles bases décider ? Où placer le curseur ? On apprend, depuis peu, que des applications agissant comme passeport immunitaire sont également en développement, elles stockeraient les informations sur le statut immunitaire des personnes qui l’utilisent et détermineraient leur droit à travailler, à se déplacer, etc. De telles utilisations numériques des données de santé demanderaient de prendre le temps du débat et de l’expérimentation, mais les États et les autorités sanitaires ont besoin rapidement d’outils d’aide à la décision pour guider leurs actions et leur permettre de construire les stratégies sanitaires que les citoyens et les entreprises attendent d’eux. D’autres méthodes de suivi et de lutte contre l’épidémie recourant aux données massives, à l’instar de la modélisation, pourraient-elles, alors, répondre aux besoins des gouvernants sans risquer d’affecter la vie privée des individus ?
La modélisation individu-centrée, une alternative au traçage des individus ?
Il existe plusieurs modélisations de l’épidémie et de sa propagation, celle sur laquelle s’appuie largement la communauté des chercheurs provient de l’équipe ETE (Laboratoire MIVEGEC, CNRS, IRD, Université de Montpellier) ou lui est très similaire. Elle permet de « visualiser les effets des mesures de contrôle de santé publique limitant la propagation du virus SARS-CoV-2. Cependant, le modèle reste simple et peu réaliste pour une échelle nationale », reconnaissent ses auteurs.
Docteur en « Calcul Haute Performance », le chercheur Olivier Thomine s’appuie sur ce modèle épidémique et sur ses travaux antérieurs pour produire un outil de modélisation plus complexe, baptisé Epidemap. Au contraire des modèles classiques dits « moyennés », son modèle est centré sur l’individu. Il permet de simuler individuellement la population française : « on créé des agents virtuels qui possèdent les mêmes caractéristiques que la population française en termes démographique et de déplacement. Mais aucun agent ne correspond à une personne réelle, ce sont des avatars construits statistiquement. Nous pouvons, alors, recréer des centres villes, des villages et voir comment les gens interagissent en fonction de la densité démographique », explique le chercheur. Epidemap est un méta-modèle qui intègre, en plus du modèle épidémique cité précédemment, un modèle démographique (âge, sexe, répartition géographique, etc.) provenant de sources comme l’INSEE ou les données cadastrales en Open data, ainsi qu’un modèle de mobilité, provenant du laboratoire de recherche sur la mobilité urbaine du CEA et d’une étude de géo-traçing américaine « Human Mobility: Models and Applications ». « Avec ce type de modélisation, il est possible de simuler des scénarios détaillés par territoire : le déconfinement d’une ville, mais pas d’une autre ; l’ouverture des écoles, mais pas des lycées, etc. Il est possible de simuler un encombrement hospitalier. On peut complexifier le modèle, rajouter des critères et des contraintes, c’est très rapide à coder », déclare-t-il.
Le modèle n’utilise pas de données personnelles, il a été calibré sur l’historique des données d’entrée en réanimation avant et pendant le confinement. Il est à présent prêt, c’est-à-dire que les données quotidiennes issues du modèle correspondent aux données réelles. L’équipe aujourd’hui bénévole qui entoure le chercheur est en train de simuler différents scénarios de confinement et de déconfinement. Les résultats et l’outil seront ensuite présentés à l’université de Montpellier et à l’institut Pasteur, deux laboratoires français parmi les plus en pointe en matière d’épidémiologie.
L’inconvénient des modèles individu-centré réside dans la puissance de calcul nécessaire. L’équipe d’Epidemap cherche, en ce moment, à financer du matériel complémentaire afin de faire tourner les scénarios. L’autre écueil est celui de la transparence. La publication des projections pourrait, selon le chercheur, influencer les comportements et créer des boucles de rétroaction, ce qui pourrait affecter l’efficacité des mesures sanitaires mises en œuvre sur la base du modèle. Aussi, une gouvernance est aujourd’hui en cours de réflexion : intégration de scientifiques et de membres de la société civile, relecture du code sous clause de confidentialité, résultats publiés a posteriori.
En conclusion, le recours à de l’IA ou à un traitement massif de données dans la lutte contre le Covid-19 montre déjà des résultats, notamment en termes de temps, de capacité et de réactivité. Cependant, il importera d’évaluer en sortie de crise les apports et les problématiques rencontrés par l’emploi des outils numériques de contrôle et de suivi en masse de la population sur la base de leurs données de santé. Ainsi le Conseil de l’Europe nous rappelle que « les standards en matière de protection des données doivent pouvoir continuer à s’appliquer pleinement en toutes circonstances : qu’il s’agisse de l’utilisation de données biométriques, de la géolocalisation, de la reconnaissance faciale et de l’exploitation de données de santé, le déploiement d’applications en urgence doit s’effectuer en concertation avec les autorités de protection des données et dans le respect de la dignité et de la vie privée des utilisateurs ». Cette crise sanitaire aura, dans tous les cas, mis en lumière l’importance d’un débat démocratique sur les questions d’utilisation de l’IA dans le domaine de la santé afin de déterminer un cadre d’action clair pour organisation publiques et privés agissant dans ce domaine. La crise aura, aussi, permis de rendre ce débat très concret et donc accessible à l’ensemble de la société.
Article réalisé par Chrystèle Bazin