L’avènement du big data a mis en avant deux types de données
qui n’étaient jusqu’a présent pas ou peu analysées sur
de gros volumes : les données textuelles et les images. Ce manque
d’appétence de la part des entreprises pour défricher des
insights forcément cachés dans cette somme de données
s’explique par la complexité et le caractère extrêmement
chronophage de ces analyses. Qui dit complexité dit développement
d’une méthodologie de traitements pour y faire face. Cette
méthodologie ne peut qu’être ad’hoc dans un cadre big
data puisqu’il s’agit de s’emparer des données
propres à l’entreprise, éparses ayant des thématiques très
variées.
Cette dimension ad’hoc confère à l’analyste de ces
données un caractère artisanal et donc un statut d’artisan de la
donnée. Comme tout artisan, sa sensibilité aux différents outils dont il
dispose va lui permettre de mettre en place une stratégie
d’analyse de la donnée. Par conséquent le ROI en insights ne peut
que dépendre du profil de l’analyste.
Aujourd’hui comme hier deux types d’approches sont
disponibles pour analyser ces masses de données textuelles : les
analyses lexicales et les analyses sémantiques. Notons que c’est
le choix de l’analyse qui doit conduire au choix de l’outil
et non l’inverse ce qui est malheureusement souvent observé.
Les analyses textuelles permettent d’avoir une granularité
extrême puisqu’il s’agit ici de décomposer tout un corpus de
données en une liste de mots avec leurs occurrences. La stratégie repose
donc sur l’agrégation des différentes écritures du mot dans un
premier temps. Une fois cette agrégation réalisée la seconde étape
consiste à agréger une nouvelle fois ces groupes de mots en groupe de
sens, c’est ce que certains appellent la catégorisation.
C’est l’étape la plus décisive dans la stratégie
d’analyse textuelle en big data. En effet, l’erreur la plus
commune consiste à tenter de tout analyser, tout comprendre. Sans
stratégie, l’analyse sera longue et les résultats peu
opérationnels. L’approche en réalité consiste à chercher la
réponse à une thématique particulière. C’est cette thématique qui
va aider à définir les mots clefs pour la catégorisation des mots.
Certains outils proposent également de rechercher les segments de
mots les plus significatifs dans un texte. Ce choix ne doit être guidé
que dans le cadre de la thématique recherchée.
Une fois la catégorisation achevée, il est possible de réutiliser
les nouvelles variables créées (les catégories) avec d’autres
types de données quantitatives ou qualitatives pour mener par exemple
des analyses multidimensionnelles ou une segmentation.
Les reproches les plus importants concernant ces analyses portent sur leurs caractères extrêmement chronophage et technique à tel point que nombres d’entreprises préfèrent le plus souvent externaliser ce travail. Une autre faiblesse généralement constatée dans ces analyses porte sur l’homonymie et la non prise en compte des doubles négations, du deuxième degré ou plus simplement de l’ironie. En somme, l’analyse textuelle ne peut porter que sur le premier degré d’un discours. Enfin techniquement, il est nécessaire d’avoir un matériel très puissant, ce type d’analyses étant très gourmand en ressource.
Les analyses sémantiques consistent à analyser le sens d’un texte et non plus décomposer le texte en mots comme en analyse lexicale. Les outils d’analyse sémantique sont livrés avec des dictionnaires de base qui permettent dės l’acquisition de commencer à travailler. Pourtant, comme en analyse textuelle l’analyste va devoir créer son propre dictionnaire avec son expertise métier. C’est à cette seule condition que l’outil pourra pleinement délivrer son potentiel. Certains outils comme Ethnos permettent de réutiliser les univers de mots pour les réinjecter avec des données quantitatives a des fins d’analyse multidimensionnelle.
Souvent, les sociétés sont déçues par les résultats de ces outils après la première analyse. En effet ayant déjà tout analysé après avoir créé le dictionnaire métier, on ne voit pas trop quoi faire de l’outil par la suite. Comme pour l’analyse textuelle, cette remarque s’explique le plus souvent par l’absence d’une stratégie d’analyse. Il faut thématiser la recherche pour obtenir des résultats réellement opérationnels. Un autre écueil qui tend à disparaître avec l’amélioration des outils concerne la prise en compte de la double négation.
Le principal défaut de ces analyses tient à l’existence d’un pré-requis fort pour les mener : les données textuelles doivent être de bonne qualité = pas d’écriture SMS, peu de fautes autorisées, un texte écrit dans une même langue. Si ces outils fonctionnent assez bien pour une analyse de textes rédigés par des professionnels (extrait de journaux, sites professionnels…) ils fonctionnent beaucoup moins bien concernant par exemple l’analyse de contenus de forums de discussion d’adolescents et plus du tout quand il s’agit d’analyser des forums multilingues.
Concernant le big data, les problèmes de traitements de données textuelles sont donc démultipliés : les thèmes des différents inputs sont variés, la qualité des données n’est pas homogène et pour les données provenant d’Internet, l’orthographe et le multilinguisme complexifient d’autant le traitement.
Mais le plus grand défi concernant l’analyse textuelle en big data réside dans la prise en compte de l’importance du commentaire. En analyse des réseaux sociaux, il est vital de catégoriser les intervenants selon l’influence qu’ils peuvent avoir sur la communauté… Pourtant, bien complexe est cette tâche. Un expert, en effet, peu n’avoir que très peu de réponses à ses commentaires car ils font autorité. De même un individu qui publie un message sans grand intérêt n’aura que peu de réponses. Un propos polémique pourra susciter un grand nombre de réactions sans que son auteur puisse être qualifié d’expert. On le comprend dès lors : si chercher à analyser ce qui a été dit est important, pondérer son contenu par l’influence de son auteur l’est tout autant. Ce principe est capital quand on cherche par exemple à analyser les articles des principaux journaux concernant une marque ou un produit par exemple en regard des réactions des lecteurs et que l’on cherche à analyser par la suite la réaction par journal selon le contenu par article.
Mener des analyses de textes à partir de flux de données est extrêmement instructif et délivre souvent des enseignements qui ne peuvent pas être trouvés via les moyens de collectes d’informations usuels (études quanti, quali….). Tout comme une segmentation affinée peut permettre de trouver de nouveaux créneau de niche, une analyse de texte de grand volume peut permettre de trouver de nouveaux insights. Pourtant cette tâche est coûteuse en terme de temps de mise à disposition des données, de traitements et d’analyses. Les écueils sont très nombreux et l’opérationnalité des résultats peu garantie selon les méthodologies utilisées. Pour autant, une approche bien réfléchie donne le plus souvent des enseignements inespérés.