Les mardis Métiers et Formations
Actualités - Publié le 8 mars 2022
Chaque mardi, DataLab Normandie vous propose de découvrir un métier ou une formation en lien avec la Data ou l’Intelligence Artificielle.
Qui est le Data Ingenieer ? En s’appuyant sur le blog de Saagie, nous allons décrypter le métier.
Quelles sont les responsabilités du Data Ingenieer ?
Les Data Engineers sont responsables de la création et de la maintenance de l’environnement qui permet d’orchestrer l’écosystème de la donnée. Ils sont responsables du développement, de la construction, de la maintenance et du test des architectures, telles que les bases de données et les systèmes de traitement. Pour faire simple, ils sont les garants de la chaîne de production de la donnée et de son bon déroulement, de l’extraction de la donnée à sa visualisation.
Quelles sont les différences entre le métier de Data Engineer et Data Scientist ?
Même si les deux postes sont désormais séparés en deux rôles distincts, il arrive encore que la frontière entre les missions du Data Engineer et celles du Data Scientist soit floue.
Pour faire simple, le travail du Data Engineer vient avant celui du Data Scientist et sert à sa mise en production. L’ingénieur se concentre sur la mise en place du pipeline de données et s’applique à ce que les autres puissent faire leur travail correctement en assurant sa maintenance. D’une manière générale, le data engineer est donc bien plus concerné par l’infrastructure et l’architecture qui permettent de générer les données et les “ranger” afin qu’elles soient exploitables. Le Data Scientist, lui, utilise ensuite ces données pour y appliquer des algorithmes et détecter des tendances. Les deux fonctions sont complémentaires.
Quelles sont les compétences du Data Ingenieer ?
Le Data Engineer est très centré sur l’infrastructure de gestion des données de l’entreprise, il doit nécessairement posséder :
- Des connaissances approfondies de SQL et autres langages de base de données
- Des compétences en stockage de données et outils ETL
- La maitrise des analyses basées sur Hadoop (Hbase, Hive, etc.)
- La maîtrise du code
- Des connaissances en Machine Learning, Deep Learning et Intelligence Artificielle
Quelques exemples de missions de concrètes
- Conception et gestion de bases de données et/ou de data lake ;
- Collecte de différentes sources et rapprochement ;
- Mise en place de « pipeline » permettant d’automatiser les différentes étapes d’acquisition des données, de l’extraction jusqu’au stockage ;
- Création d’outils permettant d’accéder aux données ;
- Gestion de la scalabilité de l’infrastructure (horizontale et verticale) de manière transparente pour les autres acteurs
L’ensemble de l’article est à retrouver sur le blog DataOps.Rocks by Saagie