Les gars, il est temps d’arrêter d’utiliser la “signification statistique” comme la marque d’une recherche importante

Les plus grands statisticiens du monde ont parlé, et leur message aux chercheurs, aux étudiants et aux communicateurs scientifiques est clair : il est temps de cesser d’utiliser les valeurs p et la signification statistique pour tester les hypothèses et déterminer si les résultats sont importants.

Si rien de tout cela n’a de sens pour vous, l’ELI5 est le suivant : les scientifiques trouvent tout le temps des corrélations dans leurs recherches, et pour déterminer si elles sont légitimes ou simplement un coup de chance, ils utilisent un test appelé valeur p. Plus la valeur p est faible, plus la corrélation est importante. Plus la valeur p est faible, plus les chances que les résultats soient réels sont grandes, une valeur p inférieure à 0,05 étant le chiffre magique qui détermine si un résultat mérite d’être publié (“statistiquement significatif”). C’est du moins la façon dont nous l’utilisons actuellement, mais selon une déclaration que vient de publier l’American Statistical Association (ASA), nous nous y prenons mal.

“La valeur p n’a jamais été destinée à remplacer le raisonnement scientifique”, a déclaré Ron Wasserstein, directeur exécutif de l’ASA. “Les arguments statistiques bien raisonnés contiennent bien plus que la valeur d’un seul chiffre et le fait que ce chiffre dépasse un seuil arbitraire. La déclaration de l’ASA vise à orienter la recherche vers une ère post-P<0,05”

Venant d’un statisticien, ce sont des mots de combat, et pour la première fois en 177 ans d’histoire, l’ASA a publié une déclaration détaillant explicitement comment le test devrait être utilisé.

La décision a été prise après que l’association se soit montrée de plus en plus préoccupée par le fait que la dépendance de la communauté scientifique à l’égard des valeurs p contribue à la publication de résultats qui ne peuvent pas être reproduits – ce qui, si l’on en croit les études récentes, est un problème assez important.

“Au fil du temps, il semble que la valeur p soit devenue le critère permettant de déterminer si un travail est publiable, du moins dans certains domaines”, a déclaré Jessica Utts, présidente de l’ASA. ce parti pris éditorial apparent conduit à l’effet “tiroir à dossiers”, selon lequel les recherches dont les résultats sont statistiquement significatifs ont beaucoup plus de chances d’être publiées, alors que d’autres travaux qui pourraient être tout aussi importants sur le plan scientifique ne paraissent jamais.”

Cela incite également les chercheurs à “bidouiller” leurs données pour obtenir cette valeur p<0,05 tant attendue et à se concentrer uniquement sur ces tests dans les articles de journaux – plutôt que d’être transparents sur tous les tests et décisions statistiques qui ont été utilisés pour calculer les données.

Si nous utilisons les valeurs p à tort et à travers, alors qu’est-ce qui est bien ? L’ASA a publié ces six directives :

  1. Les valeurs P peuvent indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.
  2. Les valeurs P ne mesurent pas la probabilité que l’hypothèse étudiée soit vraie, ni la probabilité que les données soient produites par le seul hasard.
  3. Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être fondées uniquement sur le fait qu’une valeur p dépasse un seuil spécifique.
  4. Une inférence correcte nécessite un rapport complet et une transparence.
  5. Une valeur p, ou signification statistique, ne mesure pas la taille d’un effet ou l’importance d’un résultat.
  6. En soi, une valeur p ne fournit pas une bonne mesure de la preuve concernant un modèle ou une hypothèse.

Ce n’est pas la première fois que les valeurs p sont critiquées – l’année dernière, une revue est allée jusqu’à les interdire complètement – et de nombreux scientifiques applaudissent cette déclaration audacieuse.

“Si cela s’était produit il y a 20 ans, la recherche biomédicale se porterait certainement mieux aujourd’hui”, a déclaré à Nature Giovanni Parmigiani, biostatisticien au Dana Farber Cancer Institute de Boston, qui ne fait pas partie de l’ASA .

Mais d’autres mettent en garde contre le fait que cela ne répond pas au véritable problème, qui va bien au-delà des valeurs p et a davantage à voir avec les attentes irréalistes de la société vis-à-vis de la science.

“Les gens veulent quelque chose qu’ils ne peuvent pas vraiment obtenir”, a déclaré le statisticien Andrew Gelman de l’Université de Columbia. “Ils veulent des certitudes.”

Et cela va nécessiter une communication beaucoup plus ouverte entre les scientifiques et le public sur ce que signifie réellement la déduction du sens des résultats, et l’interprétation nuancée qui en découle.

Ce ne sera pas facile, mais lorsque l’objectif est d’améliorer la méthode scientifique, cela en vaut toujours la peine.