Nous avons rencontré Madame Sophie Daviaud, Commisaire générale du Congrès Big Data, qui nous fait le point sur le marché français du Big Data et les opportunités offertes par l’analyse de ces données massives.
Big Data, mégadonnées, ou encore données massives… ces termes sont très en vogue mais restent parfois encore un peu flous pour les entreprises. De quoi parle-t-on exactement ?
Il est vrai que le Big Data souffre d’un manque de clarté dans sa définition. Le buzz qui l’entoure ne joue pas toujours en sa faveur.
La définition la plus communément admise pour le Big Data s’appuie sur les « 3V ». C’est une façon assez schématique et facile à mémoriser qui permet de transmettre les principales notions du Big Data. Les 3V expliquent en quoi le Big Data représente l’arrivée de technologies permettant une toute nouvelle approche de la donnée. Le Big Data, c’est traiter des Volumes de données conséquemment supérieurs à ceux traités auparavant, à une Vitesse incomparable, le tout en intégrant une Variété de données largement plus riche. Chacun de ces V mérite quelques précisions.
La notion de volume peut s’exprimer en chiffres: aujourd’hui on parle de stocker et traiter des exaoctets (1018) voire zettaoctets (1021) alors qu’il y a à peine 10 ans on parlait de megaoctets (106), stockés sur des disquettes. L’information est cependant peu intelligible si elle n’est pas mise en relief : il est estimé que 90% des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années. Le plus impressionnant réside dans le fait que la création de données est exponentielle.
La notion de Vitesse nécessite l’illustration par l’exemple : quand une entreprise traitait ses données, en mégaoctets auparavant, en plusieurs jours parfois, elle peut désormais réaliser la même étude, sur des volumes Big Data, en quelques heures voire minutes. L’impact économique et le gain d’efficacité est alors évident.
La notion de Variété est un peu plus technique : les données préalablement utilisées étaient hautement formatées, renseignées selon des critères communs qui eux seuls garantissaient la capacité de comparaison et de traitement de l’information. Ce que le Big Data apporte, c’est la possibilité de traiter tous types de données, dans sa forme originelle, en intégrant les nouveaux modes d’expression, de mesure et d’interactions. On peut alors traiter images, sons, vidéo, commentaires de blogs, logs, …
A ces 3V, on ajoute désormais le V de Valeur et celui de Véracité, qui expriment le besoin de disposer de données fiables, pertinentes et significatives pour donner suffisamment de sens et d’intérêt économique des analyses menées.
Le Big Data est un terme si fréquemment utilisé que la Commission générale de terminologie et de néologie s’en est emparé, révélant le 22 Août dernier sa traduction officielle en français : « megadonnées ». La définition associée est la suivante : « données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés ». La commission précise que l’on trouve également l’expression « données massives », d’ailleurs souvent privilégiée ces dernières années.
Pour bien comprendre de quoi il s’agit quand on parle de Big Data, il faut remonter à ses origines. Pourquoi le Big Data est-il né ? Les volumes de données exponentiels, leur complexification et la rapidité de réaction requise a entrainé la nécessité d’adapter les outils de traitement de données. Bien plus qu’une simple amélioration, c’est notre rapport entier à la donnée qui a été revu. Devenue centrale, critique et facteur d’avantage compétitif, elle s’est imposée comme indispensable. Le mode de fonctionnement et notre approche de la données demandait une vraie révolution. Elle s’appelle Big Data.
Le marché du Big Data est en plein expansion. La France est souvent présentée comme un retardataire dans ce domaine. Où en est-on ? Et quels sont nos atouts ?
J’ai récemment interviewé Elias Baltassis, Directeur Big Data & Analytics au BCG, qui à cette même question a répondu : « oui ! ». Mais c’est un oui à mitiger. La France est en retard pour plein de raisons, et surtout, par rapport aux potentialités du Big Data pour nos entreprises. Le tissu économique est fort, la France a de nombreux grand groupes internationaux, qui évoluent dans un contexte très compétitif et ne peuvent plus se permettre d’ignorer leurs données. Ce qui est important, c’est le décalage entre l’intérêt perçu du Big Data au sein des entreprises et la réalité des projets mis en place. Tout le monde est convaincu qu’il faut faire du Big Data, mais encore peu d’entreprises se sont lancées dans de réels projets (15 à 30% selon les études). Nous aborderons d’ailleurs ce problème lors d’une table ronde sur le congrès.
Au-delà de cette observation, la France est indéniablement reconnue pour ses capacités en mathématiques et en statistiques. De nombreux ingénieurs hautement qualifiés sont issus du système français. Ils y restent parfois, et contribuent à des réussites telles celle de CRITEO par exemple, mais sont également très recherchés par les entreprises étrangères, et notamment américaines. C’est une force que nous nous devons de préserver et d’exploiter. La profusion de formations Big Data (Telecom Paristech ayant lancé le premier mastère spécialisé en France en 2013) est révélatrice de cette tendance. Et si nous avons les compétences, rien ne nous empêche d’être performants en matière de Big Data.
Concrètement, que conseilleriez-vous à une entreprise qui s’intéresse au Big Data sans savoir par où commencer ?
De venir sur le congrès ! Plus sérieusement, il est indispensable de se renseigner, discuter avec des acteurs du secteur mais aussi des entreprises de taille et profil similaire pour comprendre quels sont leurs travaux en matière de Big Data.
Deuxième point sur lequel j’insisterai : ne pas trop se poser de questions ! Les entreprises ont souvent peur d’initier des projets Big Data et sur-conceptualisent leur approche. Il existe de nombreuses façons d’évaluer l’intérêt du Big Data pour son entreprise. L’approche de « POC » (Proof Of Concept) en fait partie. Commencer petit, par un projet bien ciblé, expérimental et sans pression majeure qui parfois paralyse les équipes, c’est peut être ça la clef.
Passés les premiers pas, et si l’intérêt est vérifié, il faudra cependant penser plus grand et structurer la démarche. C’est le travail actuel de grandes entreprises comme la FNAC ou COVEA, qui viendront témoigner sur le salon.
A l’heure où la protection des données est un sujet sensible, comment peut-on concilier ouverture et protection de ces données ?
La CNIL est là pour encadrer les entreprises, il faut s’appuyer sur ses recommandations. Souvent critiquée pour sa trop grande rigidité, elle mène depuis quelques temps de grands travaux de simplification. Stéphane Grégoire, Chef de service, Service des affaires économiques à la CNIL, viendra justement expliquer sur la conférence en quoi consistent cette simplification.
Le caractère sensible des données dépend également beaucoup de leur nature. Les données de santé sont perçues comme les plus sensibles et donc nécessairement à protéger.
Quoi qu’il en soit, il revient à ce jour à chaque entreprise d’être responsable face à ses données. Du côté de l’individu, un discours se fait de plus en plus fort, et tend à prédire une nouvelle approche de nos données personnelles. C’est encore assez nouveau pour l’instant, mais nous sommes de plus en plus sensibilisés à ces questions. Nous deviendrons donc relativement autonomes par rapport au contrôle des informations de que nous diffusons, et ce grâce aux outils qui se développent (droit à l’oubli, anti spam, conditions générales des sites que nous fréquentons,…).
Sans devenir paranoïaques, nous accepterons même l’utilisation de certaines de nos données dans la mesure où cela permet l’amélioration des produits et services qui nous seront proposés. Personnellement, je préfère recevoir un coupon de réduction pour ma marque préférée dans la boite aux lettres plutôt qu’un catalogue entier de produits qui ne m’intéressent pas. C’est une nouvelle approche de nos modes de consommation, plus personnalisée, qui s’annonce.
L’émergence du Big Data a fait apparaître de nouveaux métiers comme les Data Scientists et Data Analysts. Qui sont-ils et que font-ils ?
Ce sont les pilotes des futurs projets Big Data. Après avoir interviewé plusieurs étudiants de la première promotion de Telecom Paristech, j’avais retenu qu’ils se voient essentiellement comme des électrons libres. Ils doivent être capables de comprendre les aspects techniques du Big Data, d’implémenter des solutions, mais aussi de rendre les projets intelligibles à l’ensemble des employés au sein de l’entreprise. C’est d’ailleurs un obstacle majeur qui demeure aujourd’hui : peu de services en dehors de la DSI ont l’information nécessaire pour comprendre et bien utiliser le Big Data. Un Data scientist doit comprendre les divers enjeux métiers, les adresser, proposer des solutions et rendre les outils faciles d’utilisation. C’est un profil encore difficile à appréhender pour les entreprises, puisqu’il ne rentre pas dans le cadre classique et se positionne davantage comme une ressource transverse. Mais il deviendra indispensable.
Peut-on dire que le métier de chargé d’études « classique » est voué à disparaître ?
Ce n’est pas mon domaine d’expertise et je connais peu ce métier, mais je pense qu’il est à minima voué à évoluer. La façon dont les études sont menées est forcément bouleversée par le Big Data. Si les techniques classiques vont certainement perdurer pour certaines questions, le Big Data devra nécessairement être envisagé. Définir si une technique dite classique demeure pertinente et ne justifie pas une approche Big Data sera la question clef.
Quel est l’intérêt pour un acteur des études de participer au Congrès Big Data ?
L’intérêt est cité dans la question précédente. Si le Big Data devient un élément qui ne peut pas être occulté du métier de chargé d’étude, il doit se familiariser avec la question, et il n’y a pas de meilleur rendez-vous en France que le congrès Big Data Paris.
Rencontrer les acteurs du secteur, écouter des retours d’expérience de grandes entreprises du retail par exemple, échanger avec les intervenants issus de divers secteurs, dont celui des études d’ailleurs, apporte une richesse indéniable.
N’oublions pas que pour être bien abordé, le Big Data doit être un minimum appréhendé. Il revient à chacun de se faire sa propre idée sur la façon dont il abordera la question.
Quels vont être les temps forts de cette nouvelle édition ?
Les temps forts seront le discours de clôture par Axelle Lemaire, mais aussi les keynotes, dont celle d’Eric Sadin sur l’impact du Big Data et des objets connectés sur la société. Les tables rondes, et notamment celle sur les freins au Big Data en entreprise, seront riches pour les participants. Et évidement, les parcours retours d’expérience, sur les deux jours, permettrons aux visiteurs d’écouter leurs pairs ou justement de découvrir des projets d’application dans des secteurs très variés.