Collecter des données c’est bien. Pouvoir les stocker, les rendre fiables et les analyser, c’est mieux ! Pour ce faire, les entreprises ont besoin d’experts alliant compétences techniques et compréhension des enjeux business : les Data Engineers.
Toutes les entreprises collectent volontairement ou non des données. À travers leur activité commerciale, marketing et opérationnelle, elles récupèrent chaque jour un volume de données proportionnel à l’intensité de leur activité : CRM, objets connectés, réseaux sociaux, moteurs de recherches, d’un service par l’utilisateur, etc.
Depuis une petite vingtaine d’années et avec la croissance exponentielle des technologies, elles apprennent à les valoriser, en interne pour améliorer leur produit/service, accompagner à la décision, automatiser à travers l’IA, mesure, etc ou en externe en le revendant à d’autres entreprises.
Maintenant que tout le monde a compris l’importance de la data, il ne s’agit plus d’en perdre une seule goutte. C’est la nouvelle richesse du XXIe siècle : pendant que les réserves de pétrole se vide, les réserves de données se remplissent … et elles n’ont pas de limites.
De plus en plus d'entreprises embauchent des Data engineer pour comprendre et visualiser la donnée.
Toutes les entreprises sont amenées par son activité à récolter une quantité importante de données et souhaitant les valoriser de différentes manières :
On distingue les entreprises dont le produit et/ou business dépend de la récolte de données (publicité, marketing digital, réseaux sociaux, plateforme streaming…) et celles qui de par leur activité, brasse un fort volume de données (média, plateforme de mise en relation).
Toutes ces entreprises ont besoin des compétences d’un Data Engineer en entrée de la chaîne de valorisation des données, afin de récolter les données brutes, les transformer en données utilisables puis formatées pour les mettre à disposition des :
Travaillant en amont de la valorisation des données, son impact est indirect sur le business et se fait à travers le travail des Data scientist et Data Analyst. Il peut être plus ou moins fort en fonction du volume de données que l’entreprise récolte.
Mais en tant que porte d’entrée des données, il est indirectement responsable de toute la valorisation qui sera faite des données récoltées. Sans ce profil, il est très compliqué voire impossible d’imaginer toutes tâches en relation avec les données au sein de toute l’entreprise.
Un Data Engineer est quelqu’un ayant un background technique (en développement logiciel le plus fréquemment). Il va construire l’architecture du système Big Data et doit s’assurer de pouvoir collecter, transformer et stocker les données de différentes sources. Pour cela, il développe des solutions qui permettent de traiter un gros volume de data dans un temps limité.
Le travail d’un Data Engineer est de préparer le terrain pour qu’un Data Scientist puisse se servir des données «propres» afin de les exploiter de façon plus complexe, tirer des tendances (Insights), prédire, inférer avec les algorithmes de Machine Learning.
Le Data Engineer va construire l’architecture du système Big Data. Il optera pour des outils de stockage adaptés au type de données et au ratio stockage/query.
Avec un intérêt pour le Développement et Opérations (DevOps), il est en collaboration directe avec les autres rôles de la data. Il sait doser l’aspect mis en production avec les itérations rapides du développement.
Les principaux enjeux auxquels il fait face sont : la performance, la scalabilité et la gestion de gros volumes de données.
Dans une petite équipe tech, il peut porter la responsabilité d’un pôle data en confondant les métiers de Data Engineer et Data Analyst. Il aura ainsi la main sur tout le cycle de valorisation de la donnée sans pour autant pouvoir aller profondément dans ses sujets.
Cela nécessite une connaissance horizontale des problématiques data sans pouvoir développer une expertise verticale.
Dans une grande équipe tech, il travaille sous la responsabilité d’un Manager Data (Head of Data, CDO, Lead Data Manager), en collaboration le Data Scientist et le Data Analyst qui peuvent être amenés à travailler sur les mêmes problématiques de prise de décisions mais avec un rendu différent.
Le Data Analyst développera des outils visuels (dashboard) et de reporting, là où le Data Scientist mettra en place des modèles prédictifs.
En charge de la mise en place de l’architecture du système Big Data (d’où son appellation de data architect), il travaille également avec les devOps pour construire les réservoirs de données appelés Data Warehouses.
Il va permettre de :
Le Data Engenieer va travailler avec un Machine Learning Engineern, un Data Scientist ou avec un Devops.
Il utilise la plupart du temps des bases de données NoSQL et se basera sur le cloud pour les infrastructures. Il sait également employer les technologies comme le Airflow et Spark pour orchestrer et traiter convenablement ces grands volumes de données.
De manière générale le Data Engineer a un background de développeur. Afin de proposer les meilleures solutions, c’est un développeur applicatif avec une appétence pour l’administration des infrastructures informatiques.
Pour résumer, le Data Engineer est un profil tech qui s’est spécialisé dans la création de solutions logicielles autour du big data.
Rigueur, curiosité, communication et esprit d’équipe sont les éléments clefs pour être un bon Data Engineer.
Le data engineer va travailler avec plusieurs technologies, plateformes et outils :
Il va utiliser les langages de programmation :
et un langage spécialisé comme (++) :
La majorité des Data Engineers ont un parcours en école d’ingénieur spécialisée en informatique ou bien un Master Big Data à l’Université. Certains Data Engineers sont aussi d’anciens Software Engineers (Ingénieurs logiciel) ou Ingénieurs Big Data.
Le salaire d'un data engineer peut doubler entre le profil junior et le senior :
Selon les compétences et les softs-skills du candidat, la carrière peut évoluer vers :
December 8, 2020
À lire aussi :