Les tests statistiques permettent de contrôler la validité d’une hypothèse émise sur une population-mère, à partir des observations effectuées sur un échantillon. L’hypothèse ainsi énoncée est appelée hypothèse nulle ou H0. Elle correspond généralement à un postulat de prudence que l’on n’est prêt à rejeter qu’avec un degré élevé de certitude.
Exemples : une nouvelle molécule n’est pas plus efficace qu’un placebo ; une baisse de prix ou un changement de formule n’aura aucun effet sur les ventes ; la satisfaction sur nos produits n’a pas évolué par rapport à la vague d’enquête précédente ; le pourcentage des satisfaits est le même dans toutes les régions…
H0 correspond donc, en quelque sorte, au contraire de ce que l’on cherche
habituellement à prouver, soit, très souvent, au postulat qu’il n’y a
rien de particulier à signaler.
L’hypothèse alternative à H0 est appelée H1. Le test s’attachera à
valider ou à rejeter H0 (et par conséquent à tirer la conclusion inverse
pour H1).
Si le résultat du test amène à accepter l’hypothèse nulle H0, le
chargé d’études en déduit qu’il ne peut rien conclure à
partir des observations concernées, la probabilité que la répartition
soit dûe au hasard étant élevée. En revanche, le rejet de H0 peut
signifier que la répartition des réponses pourrait receler des
informations particulières qui ne semblent pas être dûes au hasard et
qu’il convient d’approfondir.
Mode d’utilisation
En principe, la mise en oeuvre d’un test statistique doit passer par les 5 étapes suivantes :
- Formulation de l’hypothèse nulle H0 et de son hypothèse
alternative H1: Ces hypothèses sont toujours formulées par
rapport à la population globale, alors que le test portera sur les
observations effectuées dans le cadre de l’échantillon.
Exemple : Par rapport à la note de satisfaction clients de 8,7 sur
10 obtenue l’année dernière, la note de 8,5 donnée cette année
par un échantillon de 100 clients ne marque pas une détérioration
significative de la satisfaction de notre clientèle.
- Détermination du seuil de signification du test
(appelé alpha et décrit plus loin).
Exemple : nous acceptons un risque d’erreur de 5%.
- Dans le cadre des tests paramétriques (définition plus loin),
détermination de la loi de probabilité qui correspond à
la population-mère.
Exemple : si on venait à interroger tous nos clients potentiels, les
notes données se répartiraient selon une distribution normale ayant
un écart-type de 1.
- Calcul du seuil de rejet de H0 pour déterminer la
région de rejet et la région d’acceptation de H0 (et inversement de
H1).
Exemple : Pour un risque de 5%, la loi normale donne une valeur
critique de -0,1645. Si la valeur de notre test est supérieure à ce
seuil, notre hypothèse H0 est vérifiée : la note de cette année
n’est pas significativement inférieure.
- Décision de rejet ou d’acceptation de l’hypothèse
H0.
Exemple : La comparaison de la différence entre 8,5 et 8,7, qui est
de -0,2 étant inférieure à la valeur critique, nous devons rejeter
l’hypothèse H0. Nous devons donc estimer que la note donnée cette
année est significativement inférieure à celle de l’année
dernière.
Erreurs-types
La conclusion retenue (rejet ou non de l’hypothèse H0) est établie avec
une certaine probabilité d’erreur. Lorsque le test conduit à rejeter
l’hypothèse nulle, l’erreur éventuelle dans le cas où cette hypothèse
serait en réalité vraie, est appelée « Erreur de type 1 » ou « Erreur
alpha ». Dans l’exemple décrit plus haut, l’erreur alpha était donc
fixée à 5%.
Lorsqu’au contraire, le test nous indique qu’il ne faut pas rejeter
l’hypothèse nulle, l’erreur éventuelle, au cas où cette hypothèse serait
en réalité fausse, est appelée « Erreur de type 2 » ou « Erreur Bêta
».
Ces indicateurs sont interdépendants : quand l’erreur alpha est
réduite, l’erreur bêta augmente. Cela signifie que le choix du seuil
alpha pour le test à effectuer doit se faire en fonction du coût
économique de l’une ou l’autre mauvaise décision.
Exemple : Avant de lancer un nouveau packaging, une
entreprise effectue un test pour vérifier qu’il plaît plus à ses
clients que l’ancien.
Si l’hypothèse est vérifiée alors qu’elle est fausse, l’entreprise
va remplacer l’ancien packaging qui plaît plus par un nouveau moins
attirant. Elle va y perdre de l’argent et des clients.
En revanche, si le test lui indique que le nouveau packaging est moins attirant alors qu’il l’est plus, elle va perdre une opportunité en ne le lançant pas. La comparaison des coûts de ces deux erreurs permet de fixer les seuils de manière optimale. Notons que les indicateurs alpha et bêta permettent de formaliser un niveau de sécurité pour le résultat obtenu (1 – alpha) et un paramètre indiquant la puissance du test (1 – bêta).
Test unilatéral, ou bilatéral
Lorsque l’hypothèse nulle consiste à tester l’égalité de la valeur du
test avec une valeur donnée, le test est bilatéral. En effet, le rejet
de l’hypothèse est décidé si la valeur du test est significativement
différente, qu’elle soit inférieure (zone de rejet de gauche) ou
supérieure (zone de rejet de droite).
Le test est dit unilatéral lorsque l’hypothèse nulle évalue si une
valeur est supérieure ou égale à la valeur de test (unilatéral gauche)
ou inférieure ou égale à cette valeur (unilatéral droit).
Tests paramétriques et non paramétriques
On distingue deux grandes catégories de tests : les tests paramétriques
et les tests non paramétriques.
Les premiers exigent que l’on spécifie la forme de la distribution de la
population-mère étudiée. Il peut s’agir, par exemple, d’une distribution
suivant la loi normale, ce qui est le cas général lorsque l’on a affaire
à de grands échantillons. En général, ces tests ne peuvent s’appliquer
qu’aux variables numériques.
Les tests non paramétriques s’appliquent quant à eux, à la fois aux
variables numériques et qualitatives. Ces tests ne font pas référence à
une répartition particulière de la population-mère. Ils peuvent donc
s’appliquer à des petits échantillons. S’ils sont théoriquement moins
puissants que les tests paramétriques, on peut quand même considérer que
les tests non paramétriques sont plus adaptés aux problématiques
d’enquêtes. Des études ont d’ailleurs prouvé que leur exactitude sur des
grands échantillons n’est que légèrement inférieure à celle des tests
paramétriques, alors qu’ils sont infiniment plus exacts sur des petits
échantillons.