L’intrusion de la p-value en recherche biomédicale : comment éviter ce p-hacking ?
La p-value est devenue la norme selon laquelle la plupart des recherches quantitatives sont jugées. Cependant, elle n’a pas été proposée pour cela. Une p-value ne fournit pas une bonne mesure de preuve. Un bref rappel sur son interprétation peut être utile avant d’expliquer ses défauts.
Lorsqu’on réalise deux échantillons aléatoires d’une même population et qu’on mesure un indicateur comme l’efficacité d’un médicament, on décrira très vraisemblablement deux efficacités différentes.
Par exemple, si le taux de guérison théorique pour un médicament est de 85%, on pourrait observer 83% dans un échantillon puis 86% sur un autre : c’est la fluctuation d’échantillonnage.
Supposons maintenant qu’on donne un médicament différent aux deux groupes : comment savoir si la différence d’efficacité observée est le résultat de cette fluctuation ou si elle peut être attribuée à une différence d’efficacité entre les médicaments ? La p-value représente justement la probabilité de se tromper en concluant que la différence n’est pas due à la fluctuation d’échantillonnage.
Autrement dit, c’est le risque d’une conclusion faussement positive. Cette information est importante, mais elle véhicule des mauvaises conclusions ou pratiques.
En voici deux importantes :
1) Elle ne renseigne pas sur l’ampleur de l’effet étudié [1].
Par exemple, une étude portant sur des milliers de sujets permet de montrer qu’un effet très minime (cliniquement non-relevant) n’est pas dû au hasard. Ce serait néanmoins une erreur de conclure à un effet. A l’inverse, même si l’effet étudié est très grand, la p-value peut être grande si l’étude porte sur un nombre réduit de sujets. Ce serait alors une erreur de conclure à l’absence d’effet. Dans ce contexte, présenter la fluctuation sous la forme d’intervalle de confiance est un des exemples qui permet de limiter ces erreurs d’interprétation.
2) L’adoration quasi-évangélique de la p-value fait de l’obtention d’une p-value inférieure à 0,05 l’unique arbitre de la publication d’un manuscrit [2]. On parle de « p-hacking » [3]. Ceci encourage les chercheurs à des pratiques douteuses sur le plan éthique, telles que : tenter une étude plusieurs fois mais ne rapporter que la positive, étudier de nombreuses variables mais seulement présenter les effets significatifs, modifier les critères d’inclusion ou les critères de jugements, etc.
Étant donné ses limites, la p-value ne devrait pas être le seul arbitre de l’intérêt des résultats d’une recherche. Beaucoup de statistiques complémentaires permettent d’améliorer la section des résultats d’un manuscrit et offrent une discussion plus riche. C’est ce que nous tentons de faire dans le rapport automatique des résultats des analyses statistiques faites avec Plug-Stat®.
-
Karpen. P Value Problems. Am J Pharm Educ. 2017; 81(9):6570.
-
Perneger and Combescure C . The distribution of P-values in medical research articles suggested selective reporting associated with statistical significance. J Clin Epidemiol. 2017 Jul; 87:70-77
-
Bruns and Ioannidis. p-Curve and p-Hacking in Observational Research. PLoS One. 2016 Feb 17; 11(2):e0149144