Commençons donc par le commencement.
Au siècle dernier, du début de l’informatique à la fin des années 80, les données d’une entreprise étaient saisies essentiellement par ses employés. Ceux-ci entraient des commandes, généraient des factures, complétaient des fichiers d’articles ou de clients, saisissaient des textes et stockaient différentes informations destinées au fonctionnement de base de la chaîne de valeur de l’organisation. Généralement, ces données étaient stockées dans une ou plusieurs bases de données centrales et très structurées, gérées par le service informatique de l’entreprise.
Avec l’avènement de la micro-informatique au début des années 80 puis de l’Internet dans les années 90, le centre de gravité de la production et de l’enregistrement de données s’est déplacé de l’intérieur vers l’extérieur de l’entreprise. En effet, des informations intéressant l’organisation ont commencé à être saisies par des tiers, clients, fournisseurs, réseau de distribution… Le système d’information de l’entreprise a commencé à intégrer ces données et à prendre en compte des remontées d’informations complémentaires, saisies à travers le web : emails, formulaires, réponses à des enquêtes électroniques, etc. L’avènement des réseaux sociaux a ajouté une nouvelle dimension. Les internautes se sont mis à émettre des contenus nouveaux et spontanés, faits d’opinions, de réactions, d’échange de conseils, accroissant encore de manière considérable le volume d’informations générées et échangées. Cela a fait dire à Eric Schmidt, à l’époque CEO de Google, que l’on créait tous les 2 jours autant de données que ce que l’humanité avait produit jusqu’en 2003. Cette tendance n’a cessé de s’accélérer depuis.
Aujourd’hui, nous sommes entrés dans une troisième phase, qui amplifie
encore de manière considérable le Volume, la Vélocité (ou Vitesse) et la
Variété de données. En effet, aux données saisies par nous autres humains,
s’ajoutent à présent les masses d’informations générées
automatiquement par nos systèmes, machines et capteurs de toutes sortes. Le
suivi automatique et permanent de la navigation sur le web, la localisation
en temps réel, les remontées en provenance d’objets connectés de plus
en plus nombreux, les systèmes de surveillance ou de tracking et bien
d’autres processus déversent un flot ininterrompu de données. Beaucoup
de ces données sont stockées de manière diffuse, sur de multiples serveurs
distants (cloud computing) et accédées avec des protocoles et systèmes
adaptés comme Hadoop, qui a été mis au point par les géants du web pour leur
propre usage et qui s’étend aujourd’hui à toutes les entreprises. Cette
architecture nouvelle est adaptée au stockage de masse réparti et dupliqué.
Mais elle peut encore dérouter les informaticiens qui n’y ont pas été
formés, notamment en raison de ses différences avec les habituelles bases de
données relationnelles, interrogées avec le traditionnel langage SQL.
Les changements d’échelles succesifs (scalability) marquent donc le passage
au concept de Big Data, qui englobe l’ensemble de l’information que chaque
organisation a à sa disposition en interne et en externe.
Que le Big Data soit !
C’est en 2008 que l’expression Big Data est apparue au grand public, sous la
plume de Chris Anderson, rédacteur en chef de Wired. Cette expression avait
déjà été utilisée auparavant dans certains travaux de recherche des années
90 mais c’est Anderson qui lui a donné son acception actuelle. L’article,
intitulé « The End of Theory: The Data Deluge Makes the Scientific Method
Obsolete » pointait notamment la capacité des données massives et des
algorithmes adaptés à nous fournir des enseignements plus précis et plus
utiles que ceux que pouvaient produire des spécialistes et des experts ayant
recours à des méthodes de recherche traditionnelles. Le titre de l’article
signifiait notamment que, devant des données aussi riches que celles dont
nous pouvons disposer désormais, il n’était plus utile de théoriser et de
faire des hypothèses, mais plutôt de s’attacher à observer les corrélations
et à en tirer des enseignements. La méthode scientifique était donc remise
en question, au profit des masses de données, considérées comme les oracles
de notre ère.
Sans prendre position sur cette approche (pas mal contestée notamment dans
la communauté scientifique), on peut affirmer que l’article en question a
fondé le concept de Big Data et a délimité un phénomène que tout le monde
percevait mais sans vraiment savoir le nommer.
La théorie de l’évolution
Aujourd’hui, le Big Data est au centre de toutes les préoccupations.
Pourtant, peu d’entreprises savent vraiment lui donner un contenu précis et
applicable concrètement dans leur environnement professionnel. Le
spécialiste de l’économie comportementale Dan Ariely l’a illustré à travers
une comparaison amusante : « Le big data, c’est comme le sexe chez les
adolescents : tout le monde en parle, personne ne sait vraiment comment le
faire, tout le monde pense que tout le monde le fait, donc tout le monde
prétend le faire ».
Certains en concluent que le phénomène relève plus du Buzz et de l’évolution
normale de la technique et des capacités de stockage. L’accélération et la
croissance du volume des données ne remettraient pas en question nos modes
de fonctionnement habituels. L’idée serait donc qu’on fait déjà du Big Data
sans le savoir et qu’il n’y a rien de vraiment neuf sous le soleil.
Pour d’autres, le Big Data est clairement une révolution industrielle et sociétale. C’est l’avis notamment de François Bourdoncle, chargé du plan Big Data, initiative gouvernementale qui vise à faire de la France une référence dans le domaine. Pour lui, il est urgent que les entreprises françaises inventent de nouveaux usages grâce au Big Data, « sinon, d’autres le feront… ». Dans un rapport sur la transformation numérique de l’économie française réalisé à la demande du gouvernement, et remis en novembre dernier, l’entrepreneur Philippe Lemoine (ancien PDG de LaSer et co-président du Groupe Galeries Lafayette) relève que « l’immense majorité des entreprises en France n’a pas encore saisi l’importance de l’exploitation des données directes ou indirectes générées par leurs activités. »
Dans le monde des études, les initiatives en matière de Big Data restent également peu nombreuses. Les professionnels du secteur semblent conscient de l’importance du phénomène et même parfois agacés de son évocation permanente. Mais le fait est que les véritables initiatives de mise en œuvre d’approches Big Data dans la recherche marketing ne sont pas encore légion.