Interview
Fabien Gandon est directeur de recherche en informatique à l’Inria, responsable de l’équipe Wimmics. Il est Docteur et habilité à diriger des recherches en Informatique.
Le Web sémantique (on parle aussi de « langage naturel ») semble sonner comme le St Graal des spécialistes du numérique depuis plusieurs années. Il serait question de rendre le contenu du Web interprétable non seulement par l’homme, mais aussi par la machine. Mais de quoi s’agit-il concrètement ?
Survey-Magazine : Pouvez-vous définir le web sémantique ?
La notion de Web Sémantique date de 1998 mais peut maintenant s’expliquer en trois étapes : premièrement les données liées, deuxièmement le Web de Données et troisièmement le Web Sémantique. L’idée des données liées est de créer des liens entre les données comme on crée des liens entre des pages, et ainsi des liens entre les bases de données comme on crée des liens entre les sites. En faisant cela et en utilisant les standards du Web et notamment ses adresses (ex. une URI www.my-company.fr/my-product) pour identifier les sujets et relations de ces données on tisse un Web de Données. Ainsi à partir des années 2006-2007, là où on avait avant un Web de documents (les pages Web) essentiellement à consommation humaine, on ajoute un Web reliant des bases de données de toutes tailles et sur tous les sujets, essentiellement à consommation des machines, qui peuvent les parcourir, suivre les liens pour trouver de nouvelles sources et naviguer et chercher ce Web de données comme nous naviguons et cherchons sur les pages du Web. Dans une dernière étape nous publions aussi sur le Web les schémas de ces données, c’est-à-dire les vocabulaires et les règles qui régissent leurs valeurs, leurs structures, leur utilisation, leur interprétation… bref leur sens, leur sémantique. Ces schémas et leurs termes utilisent eux aussi des identifiants du Web (ex. une URI identifiant la catégorie « voiture ») et des liens pour déclarer des relations entre les notions qu’ils définissent (ex. une voiture est un véhicule) leur donnant ainsi un sens et tissant un Web Sémantique.
Comment les entreprises peuvent-elles en tirer parti ?
Les entreprises peuvent utiliser le Web Sémantique de multiples façons comme c’est déjà le cas pour le Web classique : en interne (intranet, intra Web), en externe (site public, services et applications Web) entre elles (extranets, B2B). Pour faire simple, le Web Sémantique et les données liées sur le Web apportent à la fois des standards universels pour l’échange de données et l’interopérabilité et des sources de données de grandes taille dans tous les domaines (ex. musique, géographie, génomique, etc.). Outre les scénarios d’intégration de données entre ses systèmes légataires, une entreprise peut par exemple utiliser ces nouvelles données du Web pour enrichir ses données internes notamment en augmentant les dimensions d’analyse : ajouter des connaissances géographiques pour de nouvelles statistiques, ajouter des catégories pour de nouvelles agrégations, fouiller des données textuelles pour les restructurer, etc.
Voyez-vous des applications précises dans le domaine du marketing et de la connaissance client ?
Les standards du Web Sémantique peuvent agir à toutes les étapes de la construction et l’utilisation de connaissances sur des clients : la captation des connaissances, l’enrichissement des connaissances captées et le raisonnement notamment pour traiter et décider à partir de ces connaissances. Avec des techniques comme RDFa et des initiatives comme Schema.org le Web Sémantique permet par exemple de représenter et d’échanger sur le Web de façon structurée et standard des offres de fournisseurs et des avis de consommateurs. Il ouvre ainsi une nouvelle façon de publier et collecter à l’échelle mondiale des données, dans ce cas, commerciales. En utilisant les bases et les schémas du Web, les données peuvent être enrichies soit par liage et ajout de connaissances supplémentaires (ex. relier une ville à un pays) soit par des inférences qui enrichissent les bases de l’entreprise. Ces mêmes inférences peuvent aussi être utilisées pour faire de la classification (ex. détecter les adultes) et de la prise de décisions (ex. règles pour offrir une promotion). Enfin les données et inférences du Web Sémantique peuvent aussi augmenter d’autres traitements. Par exemple on parle beaucoup actuellement en Intelligence Artificielle d’apprentissage automatique (Machine Learning). L’enrichissement des données permet de les compléter pour mieux apprendre, trouver de meilleures abstractions, palier à des manques en termes de couverture ou de caractéristiques, éviter des démarrages à froids, transposer d’un domaine à un autre (ex. de la musique vers les voyages), etc. De même, couplées à des techniques de traitement automatique de la langue, les données liées permettent de détecter des entités nommées (ex. une marque, un produit, une enseigne, une célébrité) dans des textes en ligne et donc de suivre et agréger ce qui se dit à leur propos.
Auriez-vous un cas pratique ou un exemple issu de votre expérience?
En 2010, lors de la conférence internationale du Web à Raleigh USA (WWW2010) j’ai interagi avec un ingénieur de Facebook pour écrire le schéma utilisé par le protocole OGP qui est la technologie permettant le bouton « Like ». Ce mécanisme très connu est un exemple d’utilisation des métadonnées pour capter des informations précises : comment le bouton sait ce que vous aimez lorsque vous cliquez dessus ? Très simple : avec un vocabulaire dédié, le concepteur de la page a inséré à l’intérieur des métadonnées qui indiquent que cette page porte sur une catégorie d’objets (ex. les films) et sur un objet en particulier (ex. « Interstellar ») pour lequel une personne (ex. vous) fait une déclaration (ex. « j’aime »), etc. On voit très bien l’intérêt pour Facebook qui peut ainsi capter des données de multiples origines et sites. Un autre exemple est le site de la BBC qui utilise le Web Sémantique et les données liées pour organiser, enrichir et mettre à disposition d’autres applications, ses programmes musicaux, ses documentaires animaliers, etc. La BBC a même déclaré qu’elle n’aurait pas pu faire une couverture des Jeux Olympiques aussi détaillée que celle qu’elle a produite sans les techniques du Web sémantique.