Quel est le vrai sens de la p-value ?

Si vous avez déjà lu un article scientifique, vous avez forcément croisé la fameuse p-value. Souvent accompagnée du seuil magique « p < 0,05 », elle décide du sort de bien des résultats. Mais sait-on vraiment ce qu’elle dit ? Spoiler : la plupart des définitions qu’on entend en formation sont fausses.

La définition rigoureuse

La p-value est la probabilité d’observer des données au moins aussi extrêmes que celles obtenues, en supposant que l’hypothèse nulle (H0) est vraie.

Reprenons mot par mot :

  • « au moins aussi extrêmes » : on regarde la queue de la distribution, pas seulement la valeur observée.
  • « en supposant que H0 est vraie » : c’est une probabilité conditionnelle. On ne dit rien sur la probabilité que H0 soit vraie.
  • « des données » : ce sont les données qui sont aléatoires dans ce cadre fréquentiste, pas l’hypothèse.

Ce que la p-value n’est pas

Voici les erreurs d’interprétation les plus fréquentes :

  1. « p = 0,03, donc il y a 3 % de chances que H0 soit vraie » — FAUX. La p-value n’est pas P(H0 | données), c’est P(données | H0).
  2. « p = 0,03, donc il y a 97 % de chances que mon hypothèse alternative soit vraie » — FAUX, même raison.
  3. « p > 0,05, donc l’effet est nul » — FAUX. L’absence de preuve n’est pas la preuve d’absence.
  4. « Plus la p-value est petite, plus l’effet est important » — FAUX. La p-value dépend de la taille de l’effet ET de la taille d’échantillon.

Un exemple concret avec R

Imaginons qu’on compare deux groupes (traitement vs contrôle) :

set.seed(42)

# Simulation : deux groupes avec une différence réelle de 0,3
traitement <- rnorm(30, mean = 5.3, sd = 1)
controle   <- rnorm(30, mean = 5.0, sd = 1)

# Test t de Student
resultat <- t.test(traitement, controle)
print(resultat)

# La p-value seule ne dit pas tout
cat("P-value :", round(resultat$p.value, 4), "n")
cat("IC 95% :", round(resultat$conf.int, 3), "n")
cat("Différence moyenne :", round(diff(rev(resultat$estimate)), 3), "n")

Ce qui est vraiment intéressant ici, c’est l’intervalle de confiance et la taille de l’effet, pas la p-value en isolation.

Le problème du seuil p < 0,05

Le seuil 0,05 a été proposé par Ronald Fisher comme un repère pratique, pas comme une frontière sacrée entre « vrai » et « faux ». Or, dans la pratique, ce seuil a fini par dicter ce qui est publiable ou non, ce qui a donné naissance à deux fléaux :

  • P-hacking : manipuler les analyses jusqu’à obtenir p < 0,05.
  • Biais de publication : seuls les résultats « significatifs » sont publiés, faussant la littérature.

Que recommandent les statisticiens ?

En 2016, l’American Statistical Association a publié une déclaration historique recommandant :

  • Ne pas réduire l’analyse à une p-value isolée.
  • Rapporter tailles d’effet, intervalles de confiance et incertitudes.
  • Pré-enregistrer les hypothèses pour éviter le p-hacking.
  • Penser en termes de preuves cumulées, pas de « décision binaire ».

À retenir

La p-value est un outil parmi d’autres, utile mais profondément incompris. La prochaine fois que vous voyez p < 0,05 dans un papier, demandez-vous : quelle est la taille de l’effet ? Quel est l’intervalle de confiance ? L’hypothèse a-t-elle été pré-enregistrée ? Ce sont ces questions qui font la différence entre une bonne et une mauvaise science.

Dans le prochain article de cette série, nous verrons comment construire un intervalle de confiance et pourquoi il est souvent plus informatif qu’une p-value.

Articles liés

Réponses

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *