La richesse et les limites du système national des données de santé
Le SNDS contient une multitude de types de données de santé incluant les délivrances de médicaments, les diagnostics posés à l’hôpital, les actes médicaux, etc. Ainsi, les parcours de soins constitués à partir de l’enchainement de ces événements peuvent être mobilisés afin d’identifier des profils de patients plus à risque de développer certaines pathologies. Les limites du SNDS pour suivre l’état de santé des personnes sont toutefois connues : il s’agit d’un recueil de données conditionné au recours au système de santé, restreint à des données nécessaires à la facturation, et tributaire de la qualité du codage. Les données sont massives et informatives sur la santé, mais ne couvrent pas l’ensemble des déterminants de santé et ne renseignent qu’indirectement l’exposition à des facteurs de risque majeurs. Elles n’incluent pas non plus certaines données cliniques directes, telles que les diagnostics établis en médecine de ville, ou des mesures comme la tension artérielle ou les résultats d’analyses biologiques.
Une nouvelle approche inspirée du traitement du langage
Le développement de méthodes d’intelligence artificielle ouvre la voie à l’approche prédictive qui consiste à exploiter l’enchaînement des événements de santé comme une « trajectoire », analysée à l’aide de modèles inspirés du traitement automatique du langage. L’essentiel du prétraitement des données consiste à reconstituer l’enchaînement des événements de santé pour chaque patient. Les parcours de soins sont transformés en séquences d’événements (près de 80 000 événements différents), comparables à des mots dans une phrase. Grâce à sa taille (28 milliards d’événements utilisés), son exhaustivité et son caractère longitudinal, le SNDS constitue un cadre particulièrement favorable à ce type d’approches, encore peu explorées à très grande échelle.
Des performances prédictives nettement améliorées
L’étude compare ces nouveaux modèles à des approches plus classiques qui reposent sur des variables pertinentes sélectionnées pour résumer la situation des patients (indices de comorbidité, cartographie des pathologies, fréquences de recours aux soins), ensuite exploitées par des modélisations statistiques plus traditionnelles (linéaires, arbres de décision, etc.). Les résultats montrent que les modèles de langage fondés sur les trajectoires de soins améliorent sensiblement la prédiction du risque d’hospitalisation pour plus de 180 pathologies. Le modèle le plus avancé, de type transformer (BEHRT-SNDS), offre les meilleures performances, confirmant l’intérêt des architectures issues du traitement du langage appliquées aux données de santé.
Des gains variables selon les pathologies
La capacité de prédiction reste toutefois très hétérogène selon les pathologies. Pour les maladies chroniques fréquentes et bien connues (insuffisance cardiaque, maladies respiratoires chroniques, insuffisance rénale), les modèles classiques offrent déjà de bonnes performances, et les gains supplémentaires des modèles avancés restent modérés. En revanche, pour des événements plus complexes, rares ou difficiles à anticiper, l’analyse des trajectoires complètes apporte un bénéfice important. C’est le cas des pathologies comme l’épilepsie où les hospitalisations pourraient être anticipées à partir de la séquence de traitements antiépileptiques et de soins précédant la décompensation, ou encore de la maladie de Parkinson pour laquelle les trajectoires pourraient permettre la prédiction de la perte d’autonomie. D’autres situations spécifiques y verraient aussi un gain non négligeable comme les maladies hypertensives de la grossesse ou l’endométriose. En revanche, pour des pathologies aiguës difficiles à prédire comme l’appendicite, même les modèles s’appuyant sur les trajectoires de patients ne donnent pas des performances suffisantes.
Des prédictions plus fines pour certaines catégories de la population
Afin de préciser si les performances prédictives peuvent varier d’un individu à l’autre, l’étude a mobilisé l’échantillon démographique permanent de l’Insee apparié au SNDS (EDP-Santé). Le cas de la prédiction de la mortalité toutes causes a été étudié dans un premier temps comme un cas universel et recouvrant des parcours très divers. Il en ressort que les prédictions des différents modèles sont meilleures pour les femmes, pour les personnes âgées de 40 à 70 ans et pour les niveaux de vie élevés. L’analyse des disparités sociodémographiques gagnerait ainsi à être poursuivie et déclinée cas d’usage par cas d’usage. En effet, il apparaît crucial d’étudier les biais socio-économiques et territoriaux de ces modèles prédictifs entraînés à grande échelle, avant que les usages ne se développent, afin de s’assurer que l’utilisation de ces modèles pour orienter une action (par exemple un dépistage organisé) n’induise pas d’inéquités de santé.