Une bonne partie des informations textuelles qui intéressent l’entreprise correspond à des opinions énoncées par les mobinautes ou internautes, qu’ils soient clients ou non de la marque. L’analyse automatique des sentiments consiste à essayer de détecter, à partir des commentaires recueillis, la tonalité exprimée par l’émetteur. Celle-ci peut être positive, négative ou neutre. En général, un niveau d’appréciation est donné par les systèmes, sur une échelle de -100 à 100.
L’analyse automatique de sentiments est l’un des défis technologiques majeurs du moment. On imagine sans peine la difficulté de la tâche : outre la complexité du langage naturel, celui plus particulièrement utilisé sur les réseaux sociaux est truffé d’abréviations type SMS, de fautes d’orthographe, de tournures approximatives, d’erreurs grammaticales, de phrases incomplètes ou en style télégraphique, etc.
La plupart des systèmes se basent sur le repérage des mots positifs ou négatifs qui composent chaque message. Un dictionnaire où les différents mots sont associés à une pondération permet d’obtenir des valeurs que l’on consolide pour tirer la note du commentaire.
Cette approche souffre de quelques limites. En effet, si le repérage des termes clairement connotés dans un sens ou dans un autre est plutôt facile, il est plus complexe de détecter les négations qui leur font changer de sens. En effet ces négations peuvent être exprimées de manière complexe avec parfois des mots qui séparent la négation du mot correspondant (ex : pas forcément toujours bien présentée). Même des systèmes plus sophistiqués d’analyse syntaxique se révèlent également incapables de comprendre parfaitement le sens de tous les commentaires. Ainsi, l’ironie qui est très utilisée dans l’expression d’opinions est souvent indétectable pour les systèmes automatisés. De même les subtilités de la langue (usage du conditionnel par exemple) et les sous-entendus ne sont pas accessibles à des systèmes automatiques, pour l’instant.
L’approche qui semble offrir le meilleur rapport efficacité/simplicité semble être celle qui consiste à apprendre au système à reconnaître des mots et expressions liés au métier de l’entreprise et issus d’un apprentissage sur des corpus réels de commentaires. L’idée est de permettre au système d’améliorer ses performances en prenant en compte les réglages qui seront effectués progressivement. On peut ainsi gérer la polysémie des mots dont la connotation est variable en général mais positive ou négative dans le contexte particulier du métier (ex : adjectif « frais » lorsqu’on qualifie un aliment dans un restaurant et nom « frais » pour désigner des coûts bancaires ou de livraison).
Quelle que soit la méthode, il est important que les valeurs fournies par le système soient visibles par l’utilisateur afin qu’il puisse s’assurer de ses conclusions. A ce niveau, l’approche « Boîte Noire » de certaines plateformes en ligne de veille des réseaux sociaux doit être considérée avec circonspection.