Avec la création d’entrepôts de données de santé et la multiplication des sources via les solutions numériques on observe une explosion des données de santé. Mais sont-elles exploitables et de bonne qualité pour accompagner la transformation de notre système ?
Avant toute chose, commençons par une simple définition. La notion de données de santé est à apprécier selon la nature des données recueillies. On observe trois catégories de données (1) :
1. celles qui sont des données de santé par nature : antécédents médicaux, maladies, prestations de soins réalisés, résultats d’examens, traitements, handicap, etc.
2. celles, qui du fait de leur croisement avec d’autres données, deviennent des données de santé en ce qu’elles permettent de tirer une conclusion sur l’état de santé ou le risque pour la santé d’une personne : croisement d’une mesure de poids avec d’autres données (nombre de pas, mesure des apports caloriques…), croisement de la tension avec la mesure de l’effort, etc.
3. celles qui deviennent des données de santé en raison de leur destination, c’est-à-dire de l’utilisation qui en est faite au plan médical.
Les bénéfices attendus du partage et de l’exploitation des données de santé sont bien connus et font l’objet d’un relatif consensus. Il s’agit (1) :
- d’améliorer les parcours de soins et leur coordination : fournir le bon soin au bon moment, améliorer la pertinence des soins, fluidifier les parcours de soins
- de faire progresser la recherche scientifique : améliorer l’efficacité des médicaments et dispositifs médicaux, réduire les effets secondaires indésirables, développer des algorithmes d’aide au diagnostic, à la décision, à la personnalisation de la prise en charge et des parcours
- de piloter le système de santé « par les données » : élaborer et réviser les politiques publiques en se basant sur des données, utiliser les données à des fins d’organisation logistique des établissements de santé, d’évaluation de la qualité et de la pertinence des soins en vue de la mise en place de tarification à la qualité et la valeur des soins par exemple, et de politiques de santé populationnelle
- de faire progresser la médecine préventive : au lieu d’une médecine purement curative, évoluer vers une médecine qui aille vers les citoyens de façon proactive (prévention des comportements à risque, encouragement au dépistage de certaines pathologies et aux comportements vertueux, etc.).
Une multiplication et diversité des sources de données…
La nature des données de santé est aujourd’hui très variée et plutôt hétérogène selon le cadre de production. On observe différentes typologies de données de santé (2) :
- Données médicales : ensemble des informations concernant la santé d’un patient détenues, à quelque titre que ce soit, par des professionnels de santé, par des établissements de santé par des centres de santé…
- Données médico-administratives : données administratives contenues dans les documents médicaux relatifs au traitement d’un patient.
- Données statistiques : les données statistiques sont des informations codifiées, figées et transmissibles. Elles peuvent être quantitatives comme qualitatives.
- Données de vie réelle : données générées à l’occasion des soins réalisés en routine pour un patient, et qui reflètent donc a priori la pratique courante.
- Données scientifiques : données issues de la recherche médicale et des expérimentations scientifiques.
- Données contributives : données issues de partages volontaires de la part des citoyens, dans une logique ascendante
On observe un phénomène de plateformisation de la donnée de santé avec notamment l’essor de nombreux entrepôts de données pilotés par des établissements hospitaliers ou des instituts de recherche. On peut citer en exemple l’Entrepôt de Données de Santé (EDS) de l’AP-HP ou la plateforme de données en cancérologie (PDC) développée par l'Institut national du cancer.
Evidemment, cette plateformisation est illustrée par la création du Health Data Hub avec notamment la volonté de construire un catalogue documenté de manière progressive pour mettre à disposition de la communauté scientifique les données prioritaires (SNDS historique, cohortes, registres, données hospitalières, etc.).
Ces données proviennent de sources multiples : données médico-administratives générées par l’Assurance maladie ou les dossiers pharmaceutiques, données cliniques issues des dossiers médicaux, de comptes rendus d’examens, données issues des registres, des essais cliniques, données génomiques mais aussi données issues d’usages qui semblent parfois éloignés de la santé : réseaux sociaux, applications, achats alimentaires, objets connectés, déplacements, etc. (3)
Sur le sujet des données en vie réelle, elles sont extraites de différentes sources : dossiers informatisés de patients, collectées de manière spécifique (procédures de pharmacovigilance, cohortes, études as hoc) ou provenir des registres du web, des réseaux sociaux, des objets connectés, etc.
Un niveau de qualité inégale…
Les données de santé représentent aujourd’hui un enjeu stratégique pour de nombreux acteurs : instituts de recherche, établissements hospitaliers, industriels, payeurs... Mais sont-elles toujours de bonne qualité pour être exploitables ?
Aujourd’hui on collecte de nombreuses données comptables mais on observe un déficit dans les données de recherche qui va être en partie comblé par de nouvelles normes d’accès simplifiées au Système National des Données de Santé. Certes quelques acteurs comme le CNRS ou l’INCa ont accès à d’importants volumes de données de recherche mais l’accès n’est pas encore assez simplifié pour favoriser le développement de nouveaux services pour les patients et les professionnels de santé autour de l’amélioration de la prévention des risques, l’accès et la qualité des soins ou l’optimisation des coûts.
Comme indiqué par l’Institut Montaigne dans son rapport « E-santé : augmentons la dose ! », « La France dispose de bases de données médico-administratives de grande valeur car permettant de retracer les parcours de soins de l’ensemble des assurés sociaux. Toutefois, ces données – qui n’ont pas été conçues pour la recherche mais plutôt dans un but de facturation – sont encore difficiles d’accès et restent incomplètes. »
Le déploiement d’entrepôts de données de santé et le lancement d’appels à projets pour exploiter ce magma de données vont dans le bon sens et doivent continuer de se développer. Les données de santé sont effectivement utiles pour évaluer la qualité des soins ou optimiser dans sa globalité le système de santé mais il est important d’ouvrir ce champ de données au-delà du médico-administratif, notamment dans la recherche.
Au-delà de cet élargissement, il faut également s’assurer de la qualité des données avant leur exploitation. On s’aperçoit que la donnée exploitée n’est pas toujours fiable donc il est nécessaire de respecter certains critères. Le niveau de qualité des données de santé peut varier en fonction de plusieurs facteurs, tels que la source des données, les méthodes de collecte, la précision des informations enregistrées et la manière dont les données sont gérées. On peut y ajouter des critères importants :
L’exactitude : les données doivent être précises et dépourvues d’erreurs
L’exhaustivité : les données doivent être complètes et inclure toutes les informations pertinentes nécessaires à l’évaluation et à la prise de décision
La fiabilité : les données doivent provenir de sources fiables et recueillies conformément aux règles juridiques établies
La pertinence : elles doivent être pertinentes pour l’objectif spécifique pour lequel elles sont utilisées
Le volume des données de santé ne cesse d’augmenter, notamment avec le déploiement de nombreuses solutions numériques tout au long du parcours de soin. Cependant, il faut prendre en compte deux aspects important aujourd’hui : l’accès à ces données, notamment pour des programmes de recherches, et la qualité de la donnée qui doit rester prioritaire. On observe des avancées mais il faut aller plus loin pour favoriser la recherche et ne pas freiner l’innovation.
✓ Les données de santé, en volume comme en qualité, donnent lieu à des décisions politiques, de recherche, thérapeutiques, commerciales et marketing. Ces décisions sont le plus souvent aidées par des algorithmes dont certains relèvent de l’Intelligence Artificielle, par exemple l’aide au diagnostic sur de l’imagerie comme le font les startups AZMed ou Huvy. Elles deviennent donc, comme dans d’autres secteurs industriels, des objets courants indispensables de notre santé collective et individuelle.
✓ Mais les doctrines s’opposent : bien de la Nation ultra-réglementé, ou bien utilisation plus simple pour de larges usages ? Et dans les entreprises de santé, baser les décisions sur les données majoritairement ou sur l’expérience faute de bien mobiliser l’or de ces données ? Par exemple, la connaissance plus exhaustive des prescripteurs et une plus grande utilisation des données permet de déterminer plus facilement la « next best action » à prendre avec les professionnels de santé, les décideurs ou le marché.
✓ La qualité de la donnée, en plus de sa justesse et son exactitude, reste donc très dépendante de son usage et son utilisation. Restreindre l’usage, rendre l’accès difficile, n’est pas un gage de qualité, au contraire. Les grandes plateformes l’ont bien compris ; c’est encore plus crucial dans la santé : la qualité et le volume de données, avec des usages différenciés, amènent des avancées significatives dans la recherche, dans les traitements, dans les organisations, dans l’éducation et la formation… Il n’y a donc pas de qualité universelle, tous les usages contribuent à améliorer les qualités !
(1)Qu’est-ce ce qu’une donnée de santé ? - CNIL
(2)Données de santé : Passer le cap citoyen ! – Renaissance Numérique – Juin 2021
(3)E-santé : Augmentons la dose ! – Institut Montaigne
Rémy Teston
Consultant digital / Expert e-santé – Buzz E-santé