Le coefficient de corrélation linéaire, noté r, évalue le lien entre deux variables numériques. Sa valeur peut se situer entre -1 et 1. Une valeur nulle du coefficient indique qu’on ne peut dégager aucune liaison dans la variation des valeurs des 2 variables. Inversement un coefficient qui se situe vers 1 indique une forte liaison. C’est également le cas si le coefficient se rapproche de -1. Dans ce cas, la liaison est également forte mais avec une variation inverse.
Ainsi, si on constate dans une étude que l’âge et le temps passé dans le magasin ont un coefficient de corrélation de 1, cela signifie que plus une personne est âgée plus elle va passer du temps dans le magasin. Si la valeur absolue de ce coefficient est bien inférieure à 1, on ne peut pas lier l’âge à la présence en magasin. Des jeunes peuvent passer peu ou beaucoup de temps et il en est de même pour des personnes plus agées.
Si l’on projette les valeurs des 2 variables sur un plan en 2 dimensions (avec la première en abscisse et la seconde en ordonnées), les valeurs de la distribution forment un nuage de points. Le signe du coefficient de corrélation linéaire r indique le sens de la pente de la droite de régression. Lorsqu’il n’y pas de corrélation entre les variables (et donc que r est bien inférieur à 1 et bien supérieur à -1), les points forment un nuage très aléatoire.
Le coefficient de corrélation linéaire est dit Coefficient de Bravais-Pearson. Il a pour formule :
est le cosinus des variables x et y centrées sur leur moyenne respective.
Attention : Le coefficient de corrélation n’est qu’un simple indicateur statistique qui signale une éventuelle liaison affine entre les variables x et y, à partir des valeurs observées. Par ailleurs, la constatation d’une corrélation linéaire élevée n’implique pas, dans la réalité, l’existence d’une véritable relation de causalité.