The Publication of the Villani Report on Artificial Intelligence: Towards Open Health Data?

Health data: a priority sector for Artificial Intelligence (AI)

Deputy Cedric Villani (from the ‘République en Marche’ party) has just published a report on Artificial Intelligence (AI). It states that, regarding public health, perspectives offered by AI are ‘promising and should improve the quality of care to the benefit of the patient and reduce the costs incurred’. In the Chapter on Health, the deputy proposes to ‘create a platform that would aggregate relevant data for research and innovation in public health (including medico-administrative data, clinical data, and hospital-related data). As a trusted third-party, the State would be in charge of organizing access to this platform according to a set of criteria […]’, thereby rendering access protocols to the Système National des Données de Santé (SNDS) [National System of Health Data] more flexible.

This report triggers many questions, which are indeed being addressed at the General Estates on Bioethics, through public debates and online consultation with the public. The main concern raised by our fellow citizens is about effective confidentiality of data and potential use of data if it turned out that patients could be identified, especially by correlation and inference (on date of birth/place of birth/healthcare setting).

Regarding the risk or re-identification of a patient from multiple data, the legislator plans for the Commission Nationale de l’Informatique et des Libertés (CNIL), the French Data protection authority, to organize a retrospective control of data and access to data as part of the bigger process of planning access to health data. However, this control will be difficult to implement due to a lack of means, according to Isabelle Falque-Pierrotin, director of CNIL — as quoted by Anne Lécu, co-director of the biomedical ethics department in Collège des Bernardins, in an article published in The Conversation[1] on 5th April.

How should we approach the risk of loss of confidentiality? Whilst it is not ethically acceptable to let actuarial criteria prevail over collective solidarity, we can also wonder if it is ethically acceptable to refuse to share individual health data when their analysis could prevent avoidable birth defects, or save lives.

It remains that ‘between the protection of private life and the health security, the question at hand is what each individual really wants’, states Anne Lescu, who also wonders if ‘at a societal scale, our ability to do could perhaps exceed our ability to think what we are doing’.

As far as the Remera registry is concerned, the objective remains the same: to protect confidentiality of data, which is to say to protect the most vulnerable. This objective requires that we participate in the national debate on ethical uses of AI: as these new technologies are, by nature, rapidly evolving, it belongs to us, as data holders, to think what we are doing carefully.

Our data is precious, and it will be useful to run IA algorithms. Collecting data also has a cost. The good news is that producing health data allowed workforce to be created. Big online platforms have understood its importance; it is therefore urgent to remind ourselves that health data must be valued, protected, shared, and that its collection must be funded[2].

Finally, the high-level technological, legal, financial constraints that go alongside open data makes us, and our funding bodies, liable: it is now of utmost necessity to seriously start thinking of professionalizing data collectors and data managers.


[1] https://theconversation.com/debat-les-donnees-de-notre-sante-doivent-rester-confidentielles-92950

[2] Institut National de la Santé et de la Recherche Médicale (Inserm) [French National Institute of Health and Medical Research] and Conseil Régional Auvergne-Rhône Alpes [Regional concil] are no longer funding the registry.

Remise du rapport Villani sur l’Intelligence Artificielle : ouvrir les données de santé ?

Les données de santé : un secteur prioritaire de l’Intelligence Artificielle (IA)

Le rapport consacré à l’intelligence artificielle (IA) vient d’être rendu public par le député La République en Marche (LREM), Cédric Villani. On peut y lire que pour la santé, les perspectives de l’IA sont « prometteuses pour améliorer la qualité des soins au bénéfice du patient et réduire leur coût ». Au chapitre dédié à la santé, le député propose de « créer une plateforme de mutualisation des données pertinentes pour la recherche et l’innovation en santé (données médico-administratives, cliniques, hospitalières). En tant que tiers de confiance, l’Etat serait chargé d’organiser l’accès au système selon un certain nombre de critères (…) ». Il recommande ainsi d’assouplir les procédures d’accès aux données du Système national des données de santé (SNDS).

Ce rapport génère grand nombre de questions, qui sont toutes, par ailleurs, abordées au sein des Etats généraux de la bioéthique à travers des débats publics et la consultation citoyenne par internet. La question principale que nos concitoyens se posent porte sur la réelle confidentialité des données et sur l’utilisation qui pourrait en être faite s’il s’avérait possible de les identifier, par corrélation et inférence notamment (sur des dates/commune de naissance/lieu de soin par exemple).

Pour ce qui est du risque de ré-identification d’un patient à partir de données multiples, le législateur, tout en organisant l’accès aux données de santé, a prévu un contrôle a posteriori, par la CNIL, des données et de leur accès. Ce contrôle semble cependant difficile à réaliser par manque de moyens, selon la présidente de la CNIL, Isabelle Falque-Pierrotin, dont les propos sont rapportés par le docteur Anne Lécu, co-directrice du département d’éthique biomédicale du Collège des Bernardins dans un article publié sur le site The Conversation[1] le 5 avril dernier.

Alors comment envisager ce risque ? S’il n’est sûrement pas éthiquement acceptable que des critères actuariels (qui prennent en compte le risque individuel) soient appliqués là où jusqu’à présent le principe de la solidarité collective prévaut, on peut aussi se demander s’il est éthiquement acceptable de refuser de partager des données individuelles de santé dans la mesure où l’analyse de ces dernières pourrait prévenir des malformations évitables, voire sauver des vies.

Il reste qu’« Entre protection de la vie privée et sécurité sanitaire, la question se pose de ce que chacun veut vraiment. À l’échelle de la société, notre capacité de faire n’excède-t-elle pas, actuellement, notre capacité à penser ce que nous faisons ? » se demande Anne Lécu.

Pour le registre Remera, le cap reste le même : protéger la confidentialité, c’est-à-dire protéger les plus vulnérables. Cette exigence implique de participer au débat national sur les usages éthiques de l’IA : ces technologies nouvelles constituant, par nature, des processus rapidement évolutifs, il appartient aux responsables de données que nous sommes, de penser ce que nous faisons.

Nos données sont précieuses, elles serviront à entraîner les algorithmes d’IA. Elles ont cependant un coût. La bonne nouvelle, c’est que leur production a fait apparaître de nouvelles formes de travail. Les grandes plateformes du numérique ont bien compris leur importance, aussi est-il urgent de rappeler que les données de santé doivent être valorisées, protégées, partagées et que leur recueil a besoin d’être financé [2].

Enfin, le haut niveau de contraintes technologiques, légales, financières qui accompagne l’ouverture des données, nous oblige et oblige nos tutelles : il n’est désormais plus possible de faire l’économie d’une réflexion sur la nécessaire professionnalisation des collecteurs et responsables de données. (version anglaise)

Emmanuelle Amar


[1] https://theconversation.com/debat-les-donnees-de-notre-sante-doivent-rester-confidentielles-92950

[2] L’inserm et le Conseil Régional Auvergne-Rhône Alpes ont supprimé le financement du registre.

Page mise à jour le 10 avril 2018