Distribution géographique

L’observation d’une hétérogénéité de la distribution des malformations conduit à supposer une possible implication de facteurs environnementaux dans leur survenue. Une étude de la répartition géographique des malformations est donc réalisée, selon la procédure suivante :

I. Implémentation d’une statistique (montrée très spécifique et d’une bonne sensibilité par des simulations) et utilisation du test de Potthoff-Whittinghill pour tester l’homogénéité de la prévalence (H0)

II. En cas de rejet de H0, cartographie des prévalences par l’interpolation aux k plus proches voisins (KNN) ou par la pondération inverse à la distance (PID)

III. En cas de rejet de H0, recherche d’agrégats par différentes méthodes :

i. Grâce à la statistique de Kulldorff (vraisemblance sous l’hypothèse d’une prévalence plus élevée à l’intérieur du cluster que dans la région) puis recherche des clusters sous forme de disques ou d’enveloppe convexe (avec correction de tests multiples)
ii. Par une approche hiérarchique, basée sur l’agrégation successive de régions contiguës selon un critère de ressemblance (p-value du test de Fisher) jusqu’à ce qu’aucune paire de régions contiguës ne soit suffisamment semblables (p-value<0.05)
iii. Par une approche par modèle de Markov caché (HMM) et l’algorithme d’Expectation Maximization (EM), qui permet de classer les régions par classes de risque, sachant les observations (cas et témoins) et la distribution du voisinage. Le nombre de classes de risque est déterminé d’après le critère d’information bayésien BIC.

Applications

Les figures suivantes représentent les données de l’ensemble des malformations recensées en 2016, selon le domicile de résidence de la mère au premier trimestre de la grossesse, rapportées aux naissances vivantes et d’enfants sans vie domiciliées (INSEE, 2016).

La statistique de Pottwhoff-Wittinghill permet de rejeter l’hypothèse d’homogénéité de la prévalence (p<10^-12).

Les figures représentent respectivement l’interpolation spatiale de la prévalence par la méthode des k plus proches voisins (k=11) et PID (p=0.8). L’intensité des couleurs est proportionnelle au logarithme (népérien) de l’odds-ratio (dans le cas de maladies rares comme les malformations, le risque relatif est approximé par l’odds-ratio).

La figure suivante montre la classification des villes par la méthode HMM et EM en quatre classes de risque. Un interpolation spatiale a ensuite été effectuée (KNN, k=3).

Les risques relatifs (prévalence dans la classe sur la prévalence moyenne) pour les classes de moyenne, haute et très haute prévalence sont respectivement de 1.5, 1.8 et 2.2.

Les figures suivantes montrent les agrégats de malformations trouvés par la scan statistic de Kulldorff (p-value<10^-6, OR respectivement de 2.2 et 2).