Nos outils, nos espaces data

Le DataLab Normandie met à disposition un environnement de traitement de la donnée : Le Workplace DataLab Normandie ou atelier IA. L'environnement collaboratif comprend un DataLake et différentes briques technologiques pour le traitement de données : Docker, Java/Scala, Jupyter, Python, R, Spark, Sqoop, Talend... L’injection, le traitement de la donnée et la visualisation des résultats sont ainsi facilités.  

    Le Workplace

    Après avoir renseigné les fiches de demande de création de compte, vous pouvez vous connecter à votre espace utilisateur puis créer et configurer votre environnement de travail. Avec vos clés d’authentification, vous pouvez effectuer votre premier pas, injecter des données, traiter et visualiser vos résultats de calcul.

    Deux profils d’usages sont proposés sur le workplace DataLab Normandie :

    • le « Bac à sable » est un compte ouvert à des fins de test du workplace DataLab Normandie. Les données et traitements déposés sur la plateforme sont ouverts à l’ensemble des comptes présents dans l’espace « Bac à sable ».
    • le « Mode projet » ou l’organisation par projet permet le cloisonnement de données au sein du projet. Les droits sur les données et traitements déposés au sein du projet sont alors gérés par le Responsable du projet, qui doit aussi valider l’ouverture de nouveaux comptes. S’il s’agit d’un nouveau projet dont vous êtes porteur, il faut dans un premier temps demander l’ouverture d’un projet).

    Nos technologies

    Les membres du consortium Datalab Normandie vous font bénéficier d’infrastructures de traitement de la donnée, accessible depuis Internet, pour développer votre projet autour de la donnée. Grâce à votre compte Datalab, votre projet est hébergé sur la plateforme et bénéficie d’espaces et d’outils dédiés.

    Le Data lake est une technologie permettant de stocker une très grande quantité de données, de la même manière qu’un lac stocke de très nombreuses gouttes d’eau. C’est donc un réservoir de données de toutes sortes (images, textes, tableurs, mails, fichiers 3D ou audios).

    Inspiré de l’image du chef d’orchestre, l’orchestrateur de technologies organise et coordonne les systèmes informatiques, les applications et les services à partir de différents processus. En s’appuyant sur l’automatisation, il facilite et optimise la gestion des tâches et des workflows. L’orchestrateur permet ainsi de collecter, analyser, gérer et utiliser rapidement et efficacement les données, suivant vos besoins.

    Myria est un supercalculateur, fourni par le constructeur français Bull Atos. Avec plus de 11 304 cœurs de calcul x86 (d’où son nom « Myria », ancien préfixe  pour 10 000), sa puissance crête théorique totale dépasse 600 TFlop/s (soit 600 000 milliards d’opérations par seconde). Dotée d’une architecture de type « grappe » (cluster en anglais), elle est constituée de serveurs interconnectés par un réseau rapide à faible latence Intel Omni-Path, qui permet à l’ensemble de se comporter comme une unique machine.

    Les services de calcul intensif du Criann peuvent être utilisés (sous conditions), notamment pour des simulations numériques de grande taille ou des traitements de données dont la volumétrie le nécessiterait.

    Et le stockage des données ?

    Deux solutions existent. La plateforme peut se brancher à un autre dépôt de données pour les transférer localement, dans les serveurs hébergés par le CRIANN, à Rouen. La plateforme peut aussi les traiter en flux, c’est-à-dire de les utiliser directement depuis leur serveur d’origine. Vous pourrez donc travailler sur des données stockées à l’extérieur.

    Articles connexes