Ces 88 scientifiques défendent la mesure la plus importante de la science

L’année dernière, une petite mesure appelée valeur p a fait l’objet d’une grande controverse, les scientifiques estimant qu’elle devait être abaissée pour aider à résoudre un problème majeur de la science moderne.

Aujourd’hui, nous disposons d’un contre-argument officiel, élaboré démocratiquement par 100 scientifiques passionnés par la valeur p et publié en ligne pour que tous puissent le lire. Mais ne croyez pas un instant que ce sera le dernier mot sur la question.

Tout scientifique digne de ce nom connaît ce qu’on appelle la valeur p, une mesure statistique fixée par un large consensus à 0,05. Le “p”, soit dit en passant, est synonyme de probabilité.

En termes simples, ce chiffre fixe une référence quant au degré de confiance qu’un chercheur et ses pairs doivent investir dans une série de résultats donnés.

Plus précisément, la valeur p est une mesure de la probabilité d’obtenir exactement les mêmes résultats si l’hypothèse nulle – le contraire de votre prédiction géniale – est effectivement vraie.

Dans la plupart des domaines scientifiques, nous sommes relativement à l’aise avec un risque de 0,05 (ou 5 % de chance), ce qui signifie qu’il y a de bonnes chances que votre hypothèse reflète fidèlement la réalité.

Ce chiffre a été fixé il y a un peu plus d’un demi-siècle, lorsque le statisticien britannique Ronald Fisher a suggéré : “Nous ne nous égarerons pas souvent si nous traçons une ligne conventionnelle à 0,05.”

Avance rapide jusqu’à la mi-2017 ; un certain nombre de scientifiques éminents n’étaient plus convaincus qu’ils “ne s’égareront pas souvent”, proclamant qu’ un problème émergent appelé la crise de la réplication pourrait être amélioré si nous fixions plutôt le chiffre à 0,005.

Leur affirmation n’est pas nouvelle. Les chercheurs ont déjà fait valoir que la “valeur p capricieuse ” mérite d’être utilisée avec prudence.

Dans de nombreux domaines, de la psychologie à l’oncologie, les scientifiques ont eu du mal à reproduire les résultats d’expériences influentes, ce qui les a amenés à se demander si nous n’étions pas trop souples quant à ce que nous devrions accepter comme preuve solide.

En théorie, l’abaissement du seuil de la valeur p obligerait les chercheurs à respecter des conditions expérimentales plus strictes pour que leurs travaux soient statistiquement significatifs.

Mais un psychologue néerlandais estime qu’il s’agit d’un “très mauvais conseil “.

L’année dernière, Daniël Lakens, de l’université technologique d’Eindhoven, s’est associé à plus de 100 autres scientifiques et défenseurs passionnés du monde entier pour collaborer à l’élaboration d’un argumentaire expliquant pourquoi la modification de la valeur p serait une très mauvaise idée.

La communauté a travaillé démocratiquement sur un fichier Google Docs partagé, qui est finalement devenu la base d’un article qu’ils ont soumis à un examen par les pairs.

“C’était incroyable de voir comment le document a évolué à partir de là”, a déclaré Lakens à Jop de Vrieze de Science.

“Les gens ajoutaient, supprimaient et ajoutaient encore. De nouvelles discussions sont apparues dans les coulisses. Ça a marché comme sur des roulettes.”

Le document final comptait 88 auteurs. Intitulé “Justifiez votre alpha “, il a récemment été accepté pour publication par Nature Human Behaviour.

Lakens et ses collègues auteurs conviennent qu’il semble y avoir un problème de réplication et qu’une valeur universelle de 0,05 n’est pas souhaitable.

Leur argument contre la fixation d’une nouvelle limite de 0,005 se résume à trois points :

  1. Personne n’a démontré que le problème de réplication est le résultat d’une valeur p élevée ;
  2. Les arguments en faveur de l’abandon de la valeur p de 0,05 n’impliquent pas logiquement qu’elle doive être appliquée dans tous les domaines et toutes les disciplines ;
  3. Il y a des conséquences négatives à prendre en compte.

Comme le dit Lakens, “Pourquoi prescrire une seule valeur p, alors que la science est si diverse ?”

Certaines études à fort enjeu exigeraient certainement des niveaux de confiance élevés.

Mais l’exclusion d’études pour cause de taille d’échantillon impossible pourrait également fermer des domaines d’étude qui pourraient devenir de plus en plus productifs avec le temps.

Il n’y a pas de hauts conseils scientifiques à consulter sur ces questions, il est donc peu probable que le débat soit bientôt tranché.

Peut-être ne s’arrêtera-t-il jamais complètement, les défenseurs des deux camps poussant et repoussant ce petit chiffre dans le futur.

Nous ne pouvons qu’espérer que ce soit le cas. Ce sont des discussions démocratiques comme celles-ci qui rendent la science si incroyablement puissante.