Beaucoup d’utilisateurs vont être certainement très surpris d’apprendre que les tests statistiques qu’ils utilisent sans se poser de questions et qui font partie aujourd’hui des normes de bases de la recherche et de la publication scientifique sont, en réalité, de plus en plus contestés par de nombreux statisticiens.
La polémique entre les Bayesiens qui rejettent ces tests et les Fréquentistes qui les pratiquent n’est certes pas nouvelle puisqu’elle remonte à la mise au point des tests statistiques au début du siècle dernier. Mais elle connaît actuellement une recrudescence importante, avec notamment des initiatives officielles comme celle de l’American Psychological Association qui préconise désormais l’utilisation systématique dans les publications des estimations par intervalles défendus par les Bayesiens, en lieu et place des tests statistiques. L’augmentation de la puissance de calcul informatique pousse également à s’intéresser de plus en plus à la démarche bayesienne, là où la démarche de statistique inférentielle classique avait été adoptée pour des raisons de simplicité et de commodité.
Notre objectif ici n’est pas d’entrer dans les débats théoriques très complexes des tenants des deux écoles, mais d’expliciter les causes de la polémique, de présenter les limites des tests et d’indiquer à cette occasion les éventuelles optimisations possibles et précautions de rigueur lorsqu’on a recours à ces tests. Nous indiquerons également les éléments de base de la démarche alternative préconisée par les Bayesiens en fournissant des liens vers des ressources pouvant aider à leur compréhension et mises en oeuvre.
Les sources du problème
La source du désaccord entre Fréquentistes et Bayesiens réside dans la
définition même de la notion de probabilité. Pour les premiers, une
probabilité est la fréquence à long terme d’un événement après un
grand nombre de tirages aléatoires. Ainsi, après une centaine de
lancers, on peut s’attendre à ce qu’une pièce tombe 50% du
côté pile et 50% du côté face. La probabilité est donc P(A) = n/N où n
est le nombre d’occurences de l’événement A dans N
répétitions.
Pour les seconds, la vision de la probabilité est lié à un niveau de
croyance de l’expert. Elle mesure le caractère plausible
d’un événement dans un environnement incertain. Comme
l’indique le mathématicien Nicolas Vayatis en reprenant
l’exemple de la pièce « Dans l’approche baysienne, on
imagine qu’il existe plusieurs pièces, chacune avec sa propre
valeur de p. On impose une seconde loi de probabilités, la loi a priori
sur les pièces elles-mêmes : elle rend compte de notre croyance quant
aux valeurs de p. Ici, on n’estime donc pas p mais sa loi de
probabilité après avoir observé les réalisations ».
Limites et abus dans l’utilisation des tests
La conséquence de cette vision se traduit par une remise en cause des mécanismes des tests mais aussi de leurs pratiques. Ainsi, on leur reproche principalement les imperfections et mauvaises pratiques suivantes :
- Les hypothèses H0 sont le plus souvent du type « aucun effet ». Or
cela est presque tout le temps faux car tout a un effet sur tout ou
presque. Le fait qu’un test soit statistiquement significatif
n’apporte donc rien de nouveau. L’important est de savoir
quelle est l’importance (la magnitude) de l’effet constaté.
Il est vrai que l’on sait, pour la plupart des hypothèses H0 que
l’on rejette que celles-ci sont fausses. Le test permet
d’indiquer si l’effet existant est négligeable ou digne
d’intérêt. Le fait qu’un test soit significatif ne doit donc
pas être vu comme une démonstration absolue mais comme un simple
argument en faveur de l’existence de l’effet soupçonné,
qu’il conviendra ensuite de vérifier en répliquant
l’expérience. Dans le domaine des études, cette réplication est
rarement possible. La significativité est interprétée généralement comme
une preuve et non comme un indice, ce qui conduit à des interprétations
erronées.
- Il suffit de prendre un échantillon suffisamment grand pour mettre
en évidence une significativité statistique. A l’inverse, avec un
très petit échantillon, on peut obtenir un résultat non significatif sur
n’importe quoi et en rester là. Ces deux écueils ne peuvent, bien
entendu, piéger que des amateurs. Mais comme le dit bien Denis Poinsot,
« Le problème est que nous sommes tous des amateurs. Même les
scientifiques qui sont très compétents dans leur domaine
d’expertise ont bénéficié au cours de leurs études d’une
formation en statistiques finalement assez modeste ». Cette remarque
s’applique au moins autant aux professionnels du marketing et des
études.
- Le non rejet de l’hypothèse nulle H0 est souvent interprété,
de manière abusive, comme une confirmation de l’absence
d’effets. A l’inverse, lorsque H0 est rejetée on confond
souvent la probabilité P du test (probabilité d’observer des
données si H0 est vraie) avec la probabilité que H0 soit vraie. Dans le
premier cas, on n’a tout simplement pas le droit d’affirmer
qu’il n’y a pas d’effet ou de liaison entre les
variables. Le non rejet de H0 ne correspond pas à la démonstration que
H0 est vraie. Dans le deuxième cas, si par exemple la probabilité
P=0,003, tout ce qu’on peut déduire est que si H0 était vraie, on
aurait 3 chances sur 1000 d’observer les résultats en question. En
revanche, nous ne pouvons pas en déduire la probabilité que H0 soit
vraie mais seulement dire que plus P est faible, moins H0 est
vraisemblable.
Des solutions de rechange ?
Au vu de ce qui se précède, on peut se demander pourquoi on continue à utiliser les tests statistiques. Plusieurs raisons peuvent être avancées :
- Les tests donnent aux conclusions d’études un caractère
scientifique et une impression d’objectivité qui semblent
incontestables. Ils facilitent la communication des résultats à des
clients à la recherche d’éléments sûrs.
- Les tests dispensent de réfléchir en fournissant des procédures et
des conclusions automatisées.
- Les tests sont aujourd’hui très faciles à utiliser même pour des
populations non formées, grâce aux nombreux logiciels statistiques, dont
certains vont jusqu’à afficher des phrases de conclusion
simplificatrices (et parfois fausses).
- Les Bayesiens préconisent d’autres solutions à base d’estimations
par intervalles de confiance. La démarche est compréhensible mais les
professionnels des études manquent de formation à ce sujet et ne savent
pas mettre en oeuvre les méthodes alternatives, avec les outils qu’ils
utilisent habituellement.
Les tests statistiques ne sont peut-être pas à jeter à condition qu’ils soient utilisés avec précaution, en évitant les biais indiqués plus haut. Ils ne sont là que pour donner des pistes et pas pour remplacer la réflexion et le bon sens du chercheur.