Entre opportunités commerciales et complexité de traitement, les données textuelles ouvrent la voie à des approches innovantes d’exploration marketing pour écouter le client…
UBIQUITÉ DES DONNÉES ET OPPORTUNITÉS COMMERCIALES
Dans un contexte concurrentiel exacerbé, les entreprises tendent aujourd’hui à considérer l’exploration et l’exploitation de la multitude des données disponibles comme une nouvelle source d’avantage compétitif. Encore récemment, celles-ci pouvaient espérer exploiter manuellement un grand nombre de données en faisant appel à des statisticiens, des modélisateurs et des analystes internes à l’entreprise. Aujourd’hui, cette masse de données est telle, que ceci s’avère quasiment impossible ! En effet, l’accroissement de la capacité de stockage des ordinateurs, l’omniprésence des réseaux ainsi que le développement des algorithmes ont permis l’inter-connectivité des différentes sources de données et ont rendu possible des analyses beaucoup plus approfondies que par le passé. Ces évolutions ont ainsi donné lieu à une formidable croissance des techniques d’exploration et de prospection des données appelées data mining.
Les techniques de data mining ont pour objectif, à partir de la connaissance issue de l’exploration d’une très large variété de données, de prédire le comportement d’un consommateur. Dans le domaine du marketing par exemple, le recours aux techniques de data mining favorise la pratique de la vente additionnelle (cross-selling) par laquelle un vendeur utilise l’intérêt manifesté par un acheteur pour un produit donné, afin de lui proposer un produit complémentaire ou de qualité supérieure au produit initialement acheté. D’une façon plus générale, les techniques de data mining sont également utilisées pour mieux gérer la relation client en analysant ses habitudes de consommation dans le but d’optimiser la culture client et de mieux répondre à ses attentes.
Dans le domaine de la finance, les techniques de data mining sont utilisées afin d’évaluer plus finement les risques crédits ou la détection d’opérations frauduleuses. Quant aux grandes entreprises de distributions telles que Walmart ou Amazon, elles recourent aux techniques de data mining pour gérer l’ensemble de leurs opérations qui se rapportent au marketing ou au management de la chaîne logistique.
Il est toutefois important de relever, que ces innombrables données doivent être structurées avant que d’être traitées par les outils de data mining. En effet, le monde ne se présente pas immédiatement à nous sous la forme de données exprimées sous forme d’items tels que les outils de data mining puissent les considérer immédiatement comme des inputs valides. Les données sont représentées, de façon assez naturelle au fond, à partir des problèmes d’où elles sont issues. Si nous voulons utiliser les multiples outils relatifs au data mining, nous devons au préalable retraiter ces données afin de les adapter à ces outils, ou créer de nouveaux outils pour traiter les données. En général, il est plus facile de retraiter les données de façon à les rendre compatibles avec les outils disponibles plutôt que le contraire ! (Provost et Fawcett, 2013).
Les techniques de data mining permettent d’analyser des données structurées ou non structurées, comme les données textuelles par exemple. En théorie, un texte n’est qu’une forme spécifique de données, et le traitement de celles-ci ne représente qu’un cas spécifique de décodage et d’exploration. En réalité, traiter des données textuelles nécessite plusieurs étapes de transformation et le plus souvent une capacité d’expertise éprouvée de la part des équipes de data mining.
En effet, la croissance rapide du Big Data 2.0, un terme qui désigne l’usage des outils du Web2.0 en marketing (les média sociaux, emails, les outils de chat, les forums, les communautés en ligne, les wikis et les blogs), a ouvert la voie à de nouvelles approches pour comprendre le monde et forger les décisions. On sait à présent que les consommateurs prennent de plus en plus l’habitude de communiquer sur les produits et les services offerts par les entreprises au travers d’informations à base de texte via les outils Web2.0. Par conséquent, les entreprises doivent appréhender toutes ces informations textuelles (Big Data 2.0) qui traduisent la voix des consommateurs – the voice of consumer (VoC) – terme qui s’est en effet imposé pour décrire l’ensemble des retours clients relativement à un produit ou un service donné (Griffin et Hauser, 1993).
Ainsi, Amazon, entreprise pionnière dans la prise en considération de la « voix du consommateur », a su exploiter l’ensemble des informations textuelles issues des commentaires émis par ses clients pour mettre en œuvre la pratique de la vente additionnelle (cross-selling) de façon maîtrisée.
A l’image d’Amazon, les entreprises doivent être en mesure d’explorer et d’exploiter les données textuelles dont elles disposent, ou auxquelles elles peuvent accéder, pour anticiper la demande de leurs clients. Elles doivent en effet se poser la question suivante : « Que peut-on faire à présent que nous ne pouvions pas faire précédemment, ou que pouvons-nous faire de mieux à présent que ce que nous faisions précédemment ? ». Ce sont probablement les réponses à ce type de questionnement qui permettront de créer les fameux « océans bleus » que toutes les entreprises recherchent (Kim et Mauborgne, 2010 ; Provost et Fawcett, 2013).
L’étude des données textuelles nous permet d’évoquer à la fois la complexité des techniques nécessaires à leur traitement, mais aussi d’illustrer leur importance dans l’anticipation des besoins clients.
L’EXPLORATION DES DONNÉES TEXTUELLES : UN MOYEN PRIVILÉGIÉ POUR ÉCOUTER LA VOIX DU CLIENT
Les données textuelles sont omniprésentes et prégnantes sur le net. En effet, de multiples outils et applications enregistrent et stockent des masses considérables de données textuelles. Que l’on pense à la multitude d’enregistrements médicaux, réclamations clients, enquêtes de satisfaction produit, etc. Exploiter cette multitude de données requière tout d’abord de les convertir sous une forme intelligible.
Internet est un nouveau médium, mais les données qu’il véhicule se présentent souvent sous la forme de messages de forme classique (McLuhan, 1968). Internet contient une masse de données textuelles considérables en provenance de multiples sources : pages web, forums, communautés en ligne, messages twittés, emails, profils Facebook, blogs personnels, etc. Les moteurs de recherches (Google ou Bing) que nous utilisons chaque jour ne sont pas autre chose que des pourvoyeurs et des agrégateurs extrêmement puissants de données textuelles massives. La musique et la vidéo génèrent certes un volume de trafic considérable, toutefois le texte reprend ses droits lorsque les individus souhaitent communiquer entre eux. Le Web2.0 offre ainsi aux internautes la possibilité d’interagir les uns avec les autres dans le cadre de communautés, générant de ce fait, un contenu de plus en plus riche sur les sites. Ces interactions entre internautes se font le plus souvent sous forme de données textuelles.
Les entreprises, pour mieux écouter leurs clients, se doivent d’analyser ces données textuelles. Toutefois, certaines données émanant de clients potentiels peuvent se présenter quelquefois sous une forme immédiatement exploitable telles que les notations ordinales (five-star ratings) ou des proportionnalités (conversion rates). D’autres données peuvent provenir d’enquêtes payantes en ligne ou de focus groupes et constituent également une richesse considérable pour les entreprises. Cependant, si nous voulons vraiment entendre « la voix du client » nous devons lire ce que celui-ci écrit sous forme d’évaluations produits, d’opinions émises, ainsi que de messages postés.
Il ne fait pas de doute que la clef du succès des entreprises réside dans leur capacité à entendre, comprendre et mieux répondre aux attentes des consommateurs. Des leaders comme IBM, SAP, Oracle, Caterpillar, Starbucks, Ford Motor Company, General Electric, ou encore Bank of America élaborent leurs stratégies à partir des enseignements qu’ils peuvent extraire des données textuelles.
Par exemple, Starbucks utilise des informations issues de données textuelles afin de développer de nouveaux produits et impliquer le consommateur dans le processus de co-création de valeur selon le modèle de l’open innovation (Chesbrough, 2003). Cela ouvre la perspective d’un marketing basé sur les médias sociaux. En effet, Starbucks utilise son corporate blog comme une plateforme collaborative de brainstorming électronique. Les clients soumettent leurs idées et leurs suggestions, ce faisant ils participent activement à l’innovation produit ou service en proposant de nouvelles boissons, de nouveaux packagings et même des idées de décorations internes. Au travers de son corporate blog, Starbucks recueille les propositions de ses clients, leurs commentaires et récompense les idées les plus pertinentes sur la base des retours d’évaluations d’autres consommateurs (voir figure 1).
Les corporate blogs ont également leur place en B2B ! Caterpillar par exemple a conçu des blogs spécialisés selon le type d’industrie (construction, énergie électrique, secteur marine, etc.) eux même subdivisés en sous catégories dans chaque secteur industriel (produits, sécurité, résolution de problème, etc.). De cette façon, cette entreprise anime une plateforme collaborative qui lui permet de résoudre ses propres problèmes techniques à l’aide des commentaires des entreprises. Cela lui permet également de recueillir des données qui sont autant d’opportunités de développements produits considérables pour Caterpillar.
L’EXPLORATION DE DONNÉES TEXTUELLES : UNE COMPLEXITÉ ATTÉNUÉE PAR LES TECHNIQUES DE DATA MINING ET LES LOGICIELS D’ANALYSE TEXTUELLE
Un texte se présente sous la forme d’un ensemble de données « non structurées ». En effet, un texte n’a pas la forme d’une donnée structurée immédiatement exploitable comme peut l’être un tableau de données chiffrées, qui font immédiatement sens et qui sont facilement interprétables. Un texte peut avoir plusieurs types de structures, mais dans tous les cas, il s’agit de structures linguistiques polysémiques, compréhensibles pour l’humain mais qui s’opposent à la notion de données binaires propres à l’informatique. Un texte, et chacune des phrases qui le constitue, fait sens en fonction d’un contexte qui assure la cohérence du message. A la différence des données structurées, un texte est souvent amphibologique pour de multiples raisons. Les scripteurs ne respectent pas toujours les règles grammaticales ou les règles orthographiques, ils créent des néologismes, ils utilisent des abréviations incompréhensibles, et utilisent la ponctuation de façon hasardeuse. Même lorsqu’un texte est parfaitement construit, il peut comporter des synonymes ou des homonymes qui vont rendre son interprétation délicate. Le vocabulaire technique et les abréviations constituent d’autre écueils – nous ne pouvons pas espérer par exemple que les données textuelles relatives au domaine médical et celles relatives au domaine informatique puissent se référer au même référentiel linguistique, elles pourraient même se révéler totalement incohérentes (par exemple, selon le domaine dans lequel il est utilisé, le mot virus recouvre le sens de détérioration d’une carte mère d’un ordinateur ou d’affection d’une cellule animale).
Parce qu’un texte est fait pour communiquer entre des individus, le contexte est fondamental pour donner du sens aux données non structurées comparativement aux données structurées. Considérez cet exemple issu du site Yelp.com qui publie des avis participatifs sur les commerces locaux.
Un client a posté sur Yelp.com cet avis au sujet d’un produit qu’il a acheté via ce site : « La qualité de ce produit n’est pas toujours parfaite (cela dépend du tissu et de la façon dont vous le laverez) mais c’est un bon rapport qualité prix ».
Considérons le sentiment global du client, celui-ci est-il satisfait ou non du produit ? Est-ce que l’interprétation de la phrase « la qualité de ce produit n’est pas toujours parfaite » exprime une connotation positive ou négative ? Il est difficile d’évaluer le sens de chaque mot ou d’une phrase lorsqu’on l’extrait de son contexte.
En dépit de la richesse et de la valeur potentielle des données textuelles, de nombreuses entreprises préfèrent éviter l’analyse de ces données car leur traitement manuel est souvent considéré comme chronophage. En effet, il est difficile de tirer des enseignements pertinents à partir d’une énorme quantité de texte traitée manuellement.
Aujourd’hui de nouvelles techniques de data mining et des logiciels d’analyse textuelle permettent de dépasser ces obstacles et offrent aux entreprises la possibilité d’interpréter plus aisément les préférences, les perceptions et les besoins de leurs clients. Elles offrent la possibilité d’identifier rapidement les opinions ou les sentiments des consommateurs à partir de données textuelles et de les classer selon des catégories contextuelles préétablies. Des logiciels d’analyse textuelle peuvent même offrir la possibilité de corréler des données non structurées (des commentaires) et des données structurées (des notations chiffrées), ces logiciels permettent également de corréler des données ou des évaluations issues des retours clients avec d’autres données issues de l’entreprise. Par exemple, R.TeMiS est un logiciel libre d’analyse textuelle, fondé sur le logiciel R, qui permet de créer, manipuler et analyser des corpus de textes. Il a été développé afin d’atténuer la complexité des données textuelles évoquées plus haut et de promouvoir une approche ouverte et réflexive des corpus de textes.
Enfin soulignons que de nombreux auteurs proposent plusieurs approches scientifiques de traitements analytiques des données textuelles (Provost and Fawcett, 2013).
Cet article a été co-écrit avec Philippe Giuliani, Professeur Assistant à Montpellier Business School.