Les modèles multivariés : des résultats ajustés pas si facile à comprendre
Dans un article précédent, nous avons défini les facteurs de confusion d’une relation causale. Il est nécessaire de les prendre en compte lors de l’analyse statistique de données observationnelles. Pour cela, la méthode la plus couramment utilisée en épidémiologie reste la modélisation multivariée. On parle alors de résultats « ajustés ». Bien souvent, on se satisfait de cet adjectif « ajusté », sans réellement comprendre son interprétation.
Par exemple, supposons qu’on souhaite étudier la relation entre la consommation de café et le cancer du poumon, mais qu’on suspecte que les buveurs de café fument davantage. Un modèle multivarié permet d’estimer l’effet moyen du café entre deux fumeurs ou entre deux non-fumeurs. L’avantage des modèles multivariés est de pouvoir prendre en compte de nombreux facteurs de confusion. On parle alors d’effet ajusté spécifique à un sujet (subject-specific) : il représente l’augmentation moyenne du risque pour un individu buveur de café par rapport à un sujet ne buvant pas de café mais comparable sur toutes ses autres caractéristiques observées.
Il existe beaucoup de modèles multivariés, le choix du modèle dépend entre autres de la nature du critère de jugement. Parmi eux, on peut citer les modèles linéaire, logistique et de Cox pour étudier respectivement des critères de jugement continus, binaires, ou temporels.
Attention, cet effet ajusté spécifique à un sujet peut-être différent de l’effet ajusté populationnel (population-average), par exemple obtenu lors d’un essai clinique randomisé où les caractéristiques des sujets du groupe des buveurs de café sont en moyenne identiques à celles des sujets non-buveurs de café. Autrement dit, les chercheurs doivent être très attentifs à l’interprétation qu’ils donnent des résultats d’un modèle multivarié et ne pas les présenter comme l’effet de l’exposition qu’on aurait obtenu si on avait pu réaliser une étude interventionnelle randomisée.
Une autre source d’erreur survient lors de l’utilisation d’un modèle multivarié pour prendre en compte certains facteurs déséquilibrés malgré la randomisation, lors d’essais cliniques, souvent de taille peu importante. Dans ce cas, le protocole était fait pour estimer un effet populationnel mais l’analyse du statisticien va estimer un effet individuel qui peut être différent. Une méthode par score de propension aurait été plus adéquate.
Afin de faciliter la mise en place de ces modèles dans Plug-Stat, nous implémentons le modèle multivarié le plus adéquat pour chaque cohorte et pour chacun des critères de jugement. Ce travail est collaboratif avec les porteurs de cohortes. L’utilisateur est ensuite guidé pas-à-pas via des interfaces graphiques intuitives dans la réalisation de son analyse : tutoriels, choix d’une approche spécifique à un sujet ou populationnelle, sélection des variables d’ajustement, vérification des hypothèses, et surtout interprétation par des résultats rédigés.