Je suis DataScientist !         

Je suis DataScientist !

Marion Paclot est jeune diplômée de l’ENSAE et Data Scientist chez Bluestone, société de conseil spécialisée dansl’analyse stratégique de l’information

Face à la profusion des données, les entreprises recherchent aujourd’hui de nouveaux professionnels qu’on nomme « Data Scientists », encore assez rares en France.
En quoi consiste exactement ce métier ?
Survey-Magazine a interrogé Marion Paclot, jeune Data Scientist chez Bluestone.

Qu’est-ce qu’un Data Scientist ?

Data scientist, c’est le terme pour désigner un ensemble de professions en lien avec les données, de leur création à leur restitution. Les profils complets maîtrisant les processus de A à Z sont assez rares, ce qui fait qu’on a le plus souvent à faire à des profils complémentaires, certains à dominante statistique, d’autre informatique : statisticien, data miner ou analyst, ingénieur big data, data architect … Le point commun de tous ces métiers, c’est la nécessité de ne pas rester sur ses acquis, d’être curieux, et de tester en permanence de nouveaux outils et de nouvelles méthodes.

Comment devient-on Data Scientist ?

Les data scientists en poste viennent de formation assez diverses : écoles d’ingénieur, de statistique, fac de maths, d’informatique … Il existe aujourd’hui des filières « data science » dans les écoles (à l’ENSAE par exemple), mises en place très récemment, des masters spécialisés, mais aussi des formations plus courtes, étalées sur quelques jours ou semaines, qui permettent au moins de saisir les enjeux et grandes lignes de la datascience.
Au-delà de la formation initiale, les MOOC notamment ceux de Stanford et de Caltech, permettent de découvrir des méthodes et outils ou de se mettre à niveau.
Enfin, les plateformes comme Kaggle ou datascience.net offrent l’occasion de se tester sur des exemples concrets, des challenges pédagogiques… ou moins pédagogiques et plus rémunérateurs. Les forums de ces sites permettent de partager des solutions, des bouts de codes et d’échanger sur des problèmes assez variés.

Pouvez-vous nous décrire une mission type que vous avez menée (si possible en relation avec le domaine des études marketing ou de la connaissance clients) ?

Les interventions de Bluestone sont extrêmement variées, tant au niveau sectoriel que fonctionnel. Pour certains projets, nous intervenons sur toute la chaîne, de l’identification des données à leur traitement et valorisation opérationnelle. Ils ont même parfois vocation à servir plusieurs directions métier. Ainsi, dans le domaine du transport, nous avons par exemple construit des modèles prédictifs du trafic destinés à s’adapter à l’influence des facteurs d’aléa exogènes tels que la météo, des grèves, des événements, des fermetures temporaires de stations ou la présence de travaux. Pour ce faire nous avons construit un datamart dédié au projet dans lequel les données utiles ont été déversées et retraitées. Puis, après une étape de mise en qualité des données, nous avons construit des modèles prédictifs avec des KPI pour des études d’impacts. Sur ces bases, ont été ensuite mis en œuvre des outils d’aide à la décision qui permettent de répondre à plusieurs besoins, dont l’amélioration de la satisfaction client en adaptant l’offre à la demande, ou encore des services d’alertes ayant pour vocation de permettre aux centres opérationnels d’agir plus efficacement face à un imprévu.

Comment voyez-vous l’avenir de ce métier (débouchés, transformations, évolutions…) ?

Le métier est en plein essor et nous avons la chance de ne pas être touché par la crise : très peu de data scientists ne trouvent pas d’emploi. C’est même plutôt l’inverse, entre la hausse des besoins, un nombre insuffisant de personnes formées, les entreprises qui sont en train de monter des équipes de data scientists ne parviennent pas toutes à recruter au rythme qu’elles souhaiteraient. Les débouchés sont nombreux : laboratoires (biostatisque, recherche fondamentale), Etat et organisations internationales (évaluations de politiques publiques), et plus classiquement conseil, industrie, banques, assurances sur des sujets variés.
Les technologies utilisées sont également en plein développement, au point que certaines technologies Big Data ne sont pas encore matures. Le besoin de statisticiens, de plus en plus orientés informatique dû fait de l’émergence de ces nouvelles technologies, se fait ressentir, il est donc essentiel d’être à l’aise en programmation, et d’être capable de se former en continu.

Pensez-vous qu’on pratiquera encore des études marketing classiques dans les années à venir ?

Même si les technologies Big Data sont à la mode et ouvrent de nouveaux horizons, il me semble que les études marketing classiques continueront à perdurer. Mettre en place un processus de collecte puis d’analyse de données peut être coûteux. Ce n’est pas toujours possible, ni même intéressant de récolter un grand nombre de données. Les compétences de marketing quantitatif sont différentes de celles du marketing classique, et à mon sens, il ne faut pas sous-estimer leur complémentarité.

Vous faites parties des trois gagnants du challenge SNCF sur datascience.net. En quoi consistait ce challenge ?

Ce challenge, proposé par la SNCF et Bluestone, consistait à prédire la fréquentation des gares Transilien de la SNCF. La spécificité de ce concours par rapport aux autres de datascience.net ou d’autres plateformes du même type, c’est qu’il n’y avait pas de jeu de données préconstitué. A charge pour les participants de créer leur jeu de données, avec la contrainte de n’utiliser que des données disponibles en open data et des logiciels open source pour résoudre le problème.