Il existe deux grandes catégories de méthodes : les méthodes descriptives et les méthodes explicatives.
Les méthodes descriptives
Ces méthodes visent à structurer et simplifier les données issues de plusieurs variables, sans privilégier l’une d’entre elles en particulier.
Les méthodes les plus utilisées dans le traitement des enquêtes sont : l’analyse en composantes principales ((ACP) pour en savoir plus sur l’ACP, vous pouvez lire l’article dédié en ligne sur survey mag), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM), la typologie et les méthodes de classification.
Le choix de l’une ou de l’autre de ces méthodes dépend des objectifs poursuivis et du type de données à analyser.
L’analyse en composantes principales
L’ACP s’applique à un ensemble de variables numériques. Elle permet de positionner les individus sur un plan en deux dimensions, en fonction de la proximité de leurs réponses aux questions sélectionnées. Les variables sont également représentées sur le mapping, mais de manière indépendante des points-individus.
L’ACP permet ainsi de mettre en évidence la structuration des réponses en montrant le regroupement des individus selon des combinaisons de réponses aux questions prises en compte. Les axes du mapping ne correspondent généralement pas à l’une ou l’autre des variables mais à un regroupement optimal de plusieurs variables (ex : revenu et niveau d’études peuvent participer ensemble à la formation d’un axe dans la mesure où elles peuvent être fortement corrélées).
L’ACP est très pratique lorsque l’on travaille sur un ensemble limité et identifié d’individus statistiques. Ainsi, si l’on souhaite analyser des points de vente en fonction de différents critères numériques (surface, personnel, CA, nombre de pièces vendues…), l’ACP permet d’obtenir une cartographie intéressante, qui regroupe les points de vente selon tous les critères retenus et qui permet ainsi de les catégoriser et d’identifier notamment, d’un coup d’œil, les cas hors norme (ex : surface et personnel importants mais CA faible…).
Le tableau de départ de l’ACP comporte les individus en ligne et les variables en colonne, avec, dans chaque case, la réponse numérique de l’individu à la question correspondante. Les questions qualitatives ordinales, c’est-à-dire, celles dont les réponses peuvent être ordonnées entre elles (échelles, fréquences…) peuvent être recodifiées pour entrer dans le tableau de l’ACP.
Cette recodication doit être généralement préparée à l’avance. Toutefois, certains logiciels d’analyse statistique comme STAT’Mania, permettent de réaliser cette recodification en direct, lors du choix des variables à faire entrer dans l’ACP.
L’algorithme de l’ACP effectue sur la matrice individus/variables différentes opérations (centrage-réduction des données, diagonalisation de la matrice, extraction de valeurs propres et de vecteurs propres…), en vue de passer du nombre de variables initial à un petit nombre de variables obtenues par combinaison des premières.
Ces nouvelles composantes forment les axes du mapping. La première composante est celle qui résume le mieux les informations contenues dans le tableau. La deuxième apporte un pourcentage inférieur mais complémentaire d’information, et ainsi de suite.
Le mapping d’ACP représente d’abord la première composante (axe horizontal) et la seconde (axe vertical).
La somme des pourcentages d’explication des deux composantes renseigne sur le taux de déperdition d’information à partir des données de base. Ainsi, si la première composante résume 62% du tableau et la seconde 21%, l’information représentée sur le mapping est de 83%. L’information « perdue » est donc de 17%.
Les points-individus sont représentés sur le mapping en fonction de leur coordonnées sur les facteurs. Les points proches correspondent à des individus ayant des profils proches, a priori, quant aux réponses aux variables prises en compte dans l’analyse.
Les points-variables sont également représentés sur le mapping, mais de manière complètement indépendante des individus. Leur représentation indique leur corrélation avec les facteurs, à l’intérieur d’un cercle de rayon 1 défini avec une échelle arbitraire (qui peut être changée à loisir sans affecter la représentation des points individus). Ces points variables renseignent sur le sens à donner aux axes. Ainsi, une variable proche du cercle de corrélation (corrélation forte) et proche d’un axe participe beaucoup à la formation de cet axe.
Les angles inter-variables (en partant de l’origine) renseignent sur les corrélations entre elles. Ainsi, deux variables formant un petit angle sont fortement corrélées, alors qu’un angle droit signifierait qu’elles sont indépendantes.
L’analyse des correspondances
L’analyse factorielle des correspondances s’applique à deux variables qualitatives (nominales). Elle permet de positionner sur un mapping les modalités de réponses des deux questions.
L’analyse des correspondances Multiples généralise l’AFC à un nombre quelconque de variables et permet donc de représenter sur le même mapping les modalités de réponses de plus de deux variables.
Comme pour l’ACP, le but de ces analyses est de dégager des dimensions cachées contenues dans les réponses aux variables sélectionnées, pour faciliter l’interprétation de tableaux pas toujours lisibles au départ.
Les mappings d’analyse des correspondances affichent donc des points-modalités. Ainsi, on peut positionner une série de marques et afficher sur le même plan des caractéristiques de clients (tranches d’âges, CSP…), ce qui permet de repérer les affinités entre chaque marque et les différentes cibles.
Le tableau de départ de l’AFC simple est un tableau croisé (tableau de contingence) présentant la ventilation d’une population sur les modalités de réponses de deux questions qualitatives (ex : diplôme et profession). L’ACM quant à elle, part d’un tableau disjonctif complet (tableau de burt) qui présente en ligne les individus et en colonne toutes les modalités des variables qualitatives retenues. Les cases d’intersection comportent la valeur 1 si l’individu répond au critère en colonne et 0 dans le cas contraire.
Comme en ACP, les deux premiers axes fournissent une partie généralement importante de l’information contenue dans le tableau initial (l’axe horizontal étant, par convention, le plus significatif). La proximité des points renseigne, a priori, sur leurs associations. Les points extrêmes renseignent sur le sens à donner à chaque axe (ce qui n’est pas toujours évident, à la seule observation du graphique).
La typologie
L’analyse typologique s’applique à tous types de variables (numériques, qualitatives…). Elle permet de répartir la population de l’enquête en un nombre défini de sous-groupes aussi différents que possibles les uns des autres et dans lesquels les individus sont aussi semblables que possible entre eux. Les différentes méthodes d’analyse typologique partent des individus eux-mêmes et essaient de les classer progressivement selon la ressemblance de leurs réponses aux variables sélectionnées.
Il existe plusieurs méthodes d’analyse typologique dont la méthode K-means et la méthode des nuées dynamiques. Leurs deux algorithmes sont proches à la différence que le deuxième part d’une sélection d’un noyau d’individus au lieu de prendre des individus isolés pour constituer les partitions de démarrage (ce qui est censé donner de meilleurs résultats).
En final, les calculs itératifs des analyses typologiques aboutissent au classement des individus dans le nombre de groupes défini initialement. L’effectif de ces groupes peut être très différent. La visualisation graphique du résultat de l’analyse typologique est un mapping qui met en évidence les différents groupes. Le groupe central (le plus près du centre des axes) est le moins « typé » par rapport aux variables sélectionnées.
Certains logiciels d’analyse statistique permettent de créer à partir des résultats de la typologie, une nouvelle variable indiquant, pour chaque individu, son numéro de groupe d’appartenance. Cette question peut alors être croisée par les autres variables du questionnaire pour qualifier précisément le profil de chaque groupe.
Les méthodes de classification
Comme la typologie, la classification est une méthode de regroupement des individus selon leurs ressemblances. La différence est que le nombre de groupes n’est pas à fixer a priori et que le résultat est représenté sous la forme d’un arbre de classification.
L’élaboration de cet arbre peut être ascendante (méthode la plus fréquemment utilisée), par regroupements successifs des individus ou descendante, par divisions successives.
L’arbre de classification relie un individu à un autre ou à un sous-groupe d’individu issus eux-mêmes de regroupements. Lorsque l’on coupe l’arbre au niveau du dernier regroupement, on obtient deux groupes d’individus. Si la division est effectuée au niveau de l’avant-dernier regroupement, on obtient trois groupes. Certains logiciels permettent d’effectuer ce découpage visuellement, sur l’arbre de classification, puis de générer dans le fichier de données la variable de groupe correspondante.
Il faut noter qu’il est également possible d’appliquer une classification pour regrouper des questions plutôt que des individus. On obtient ainsi des groupes de variables dont les profils des réponses se ressemblent (ex : dans une batterie d’items).
Les méthodes explicatives
Ces méthodes visent à expliquer une variable à l’aide de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes utilisables dans les enquêtes que sont la régression multiple, l’analyse discriminante et la segmentation.
Certaines de ces méthodes (tel l’analyse des mesures conjointes) ne peuvent toutefois s’appliquer que sur des questionnaires structurés de manière adaptée.
La régression multiple
La régression multiple permet d’expliquer une variable numérique par plusieurs autres variables numériques indépendantes. Elle modélise la relation entre la variable à expliquer et les variables explicatives sous la forme d’une équation de type Y = a + b1X1 + b2X2 + … où Y est la variable à expliquer, Xn les variables indépendantes, a une constante et bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est satisfaisant, prédire les valeurs de la variable dépendante en fonction des valeurs des variables explicatives. Par exemple, cette application est très intéressante pour évaluer le niveau de satisfaction globale en fonction des appréciations données à différents items intermédiaires (ex : appréciation de l’accueil, du confort du magasin, des prix…).
L’utilisation de la régression multiple doit toutefois s’accompagner de plusieurs précautions. Ainsi, les variables explicatives doivent être indépendantes. Leurs corrélations deux à deux doivent être nulles ou proches de 0. A défaut (si le calcul aboutit quand même, ce qui n’est pas toujours le cas), le modèle obtenu sera imprécis et manquera de stabilité (valeurs très différentes d’un échantillon à l’autre).
Par ailleurs, l’appréciation de la qualité de la régression se fait
grâce à plusieurs indicateurs :
- Le premier d’entre eux est le coefficient de détermination multiple R2
ajusté qui calcule le pourcentage de variation de la variable à
expliquer dû aux variables explicatives. Ainsi un R2 de 0,35 signifie
que les variables indépendantes ne contribuent qu’à 35% de la variation
de la variable à expliquer ce qui indique que la qualité du modèle
obtenu est relativement faible.
- Le coefficient de corrélation multiple R mesure la liaison entre la
variable à expliquer et les différentes variables explicatives : si sa
valeur est inférieure à 0,85 la liaison est médiocre et le modèle de
régression peu satisfaisant.
- Le test F de Fisher permet d’estimer la qualité de l’ajustement dans
la population. La probabilité de l’hypothèse nulle (que les variables
indépendantes n’aient aucun un effet sur la variable dépendante dans la
population) est donnée par la table de Fisher. Si la valeur du F calculé
est supérieure à la valeur du F de la table à un seuil défini (ex : 5%),
le coefficient R obtenu est considéré comme significatif à ce seuil, ce
qui veut dire que le modèle de régression est valable dans la
population. Certains logiciels calculent directement la probabilité de
l’hypothèse nulle (i.e. le seuil de confiance à partir duquel
l’hypothèse nulle est à rejeter, qui doit donc être très faible pour
conclure que l’ajustement est valable).
Pour résumer ces indicateurs de qualité de la régression multiple, un
modèle valable et généralisable à la population présente un R2 élevé
(proche de 1), un R élevé (proche de 1) et une probabilité de Fisher
très faible (proche de 0).
L’analyse discriminante
L’analyse discriminante est une méthode factorielle qui cherche à expliquer une variable qualitative par plusieurs variables numériques. Comme la régression multiple qui permet de mettre en équation une variable numérique à expliquer et des variables numériques explicatives, c’est une méthode prédictive dans la mesure où elle permet de déterminer quelle modalité prendra un individu pour la variable qualitative à expliquer, si on connaît ses réponses aux questions numériques. Cette propriété permet à l’analyse discriminante d’être appliquée par exemple pour « scorer » un client bancaire en déterminant automatiquement un niveau de risque en fonction de différents paramètres connus (surface financière, revenus, endettement…).
L’analyse discriminante est également utilisée fréquemment en prolongement d’une méthode descriptive comme l’ACP ou la typologie pour apporter des précisions complémentaires aux résultats obtenus (par exemple, repérage des variables qui ont permis de créer les groupes de typologie).
Les résultats de l’analyse discriminante peuvent être visualisés sur un mapping similaire à celui de l’ACP où les points-individus sont réunis en fonction de leur appartenance aux groupes.
La segmentation
La segmentation partage les mêmes objectifs que l’analyse discriminante mais s’applique lorsque les variables explicatives sont qualitatives. Cette méthode consiste à découper une population en sous-groupes homogènes, mais uniquement par rapport à la variable à expliquer.
Le processus de la segmentation est itératif. A chaque étape l’algorithme choisit la variable explicative la plus corrélée avec la variable à expliquer pour réaliser une partition à partir des modalités de la première. Le découpage distingue à chaque étape les deux segments qui présentent la variance inter-segments la plus forte et les variances intra-segment les plus faibles.
Le résultat de la segmentation est une sorte d’arbre de décision, avec un découpage de chaque groupe en deux sous-groupes. La première partition permet d’obtenir les deux premiers groupes. Chacun de ces deux groupes est ensuite divisé en deux à l’aide de la variable permettant la meilleure partition et qui n’est généralement pas la même pour les deux groupes. Le processus se poursuit ainsi avec des interruptions lorsque la taille du groupe tombe en dessous d’un seuil ou quand le découpage optimal expliquerait un faible pourcentage de la variance.
Outre les trois méthodes explicatives d’analyse multivariée que nous avons vus ci-dessus, il convient de citer les méthodes d’analyse des mesures conjointes dont le trade-off, qui permettent d’expliquer les préférences des individus pour des produits déterminés. Ces méthodes supposent une structuration adéquate du questionnaire et n’est pas toujours facile à mettre en oeuvre.
Citons également parmi les méthodes explicatives l’analyse de la variance plus généralement utilisée en analyse univariée ou bivariée, et qui permet d’expliquer une variable qualitative par plusieurs variables numériques.
Pour comprendre intuitivement
L’analyse multivariée s’attache à résumer les données issues de plusieurs variables en minimisant la déperdition de l’information.
Pour bien comprendre ce que cela signifie, prenons l’exemple de l’ACP qui s’applique sur trois variables numériques ou plus.
Lorsque nous sommes en présence de deux variables numériques, par exemple l’âge et la taille, il est aisé d’imaginer une représentation graphique qui restitue toute l’information : un graphique avec deux axes, l’un pour l’âge et l’autre pour la taille et un positionnement de chaque point-individu selon ses valeurs pour chacune des deux variables.
Si l’on ajoute une troisième variable, par exemple le nombre d’enfants, il faudrait un graphique en trois dimensions, plus difficile à lire.
En ajoutant une quatrième variable, par exemple le revenu, nous dépassons les limites de ce que l’esprit humain est capable d’appréhender visuellement.
Une analyse telle que l’ACP ramène le nuage de points en trois, quatre ou n dimensions à un plan en 2 dimensions.
Cependant, les axes choisis ne correspondent pas à l’une ou l’autre des variables mais sont des axes virtuels, issus de combinaisons entre les variables et calculés pour passer le plus près possible de tous les points du nuage. Chaque point est projeté sur ce plan. Le cumul des distances de chacun des points par rapport au plan ainsi déterminé correspond au volume d’informations perdues.
Les analyses multivariées disposent d’un ensemble d’indicateurs qui permettent de déterminer ce niveau d’information manquante et de décider ainsi de la pertinence ou non des résultats obtenus et de la nécessité d’approfondir l’analyse en ayant recours aux tableaux numériques complémentaires et à des visualisations des données sous d’autres angles.
Ainsi, si les deux premiers axes d’une ACP ne fournissent pas une partie écrasante de l’information, il convient de s’intéresser à l’information complémentaire fournie par le troisième axe. On peut, pour cela, demander de visualiser le plan formé par les axes 1 et 3 et celui des axes 2 et 3. On peut aussi lire dans le tableau les coordonnées des différents points pour les différents axes, afin de repérer les éventuels écarts importants (deux points côte-à-côte sur le plan principal peuvent être très éloignés en réalité).