Vue d’ensemble d’Azure Data Lake Storage pour l’analytique à l’échelle du cloud

2024-10-23

Azure Data Lake est un stockage de données hautement évolutif et sécurisé pour vos charges de travail d’analytique haute performance. Vous pouvez créer des comptes de stockage au sein d’un groupe de ressources unique pour l’analytique à l’échelle du cloud. Nous vous recommandons de provisionner trois comptes Azure Data Lake Storage Gen2 au sein d’un même groupe de ressources, similaire au groupe de ressources storage-rg décrit dans l’article Vue d’ensemble de la zone d’atterrissage des données de l’architecture d’analytique à l’échelle du cloud.

Chaque compte de stockage dans votre zone d’atterrissage de données stocke des données dans l’une des trois étapes, correspondant à une architecture en médaillon :

Données brutes (bronze)
Données enrichies (argent) et Données organisées (or)
Lacs de données de développement

Une application de données peut consommer des données enrichies et organisées à partir d’un compte de stockage qui a été ingéré dans un service d’ingestion automatique de données agnostique. Vous pouvez créer une application de données alignée sur une source si vous n’implémentez pas le moteur d’agnostique des données ou facilitez les connexions complexes pour l’ingestion de données à partir de sources opérationnelles. Cette application de données suit le même flux qu’un moteur d’agnostique de données lors de l’ingestion de données à partir de sources de données externes.

Data Lake Storage Gen2 prend en charge les listes de contrôle d’accès affinées (ACL) qui protègent les données au niveau du fichier et du dossier. Les listes de contrôle d’accès peuvent aider votre organisation à implémenter des mesures de sécurité strictes pour l’authentification et les autorisations relatives aux produits de données pour :

Stocker les données en toute sécurité via le chiffrement au repos.
Contrôles d’accès pour les utilisateurs et les groupes de sécurité Microsoft Entra via l’intégration de Microsoft Entra.

Planification des lacs de données

Lorsque vous planifiez un lac de données, tenez toujours compte de la structure, de la gouvernance et de la sécurité. Plusieurs facteurs influencent la structure et l’organisation de chaque lac de données :

Le type de données stockées
Comment ces données sont transformées
Qui accède à ses données
Quels sont les modèles d’accès typiques

Regrouper les consommateurs et les producteurs en fonction de leurs besoins en matière d’accès aux données. Il est judicieux de planifier l’implémentation et la gouvernance du contrôle d’accès sur votre lac de données.

Si votre lac de données ne contient que quelques ressources de données et des processus automatisés tels que l’extraction, la transformation, le chargement (ETL), votre planification devrait être assez facile. Si votre data lake contient des centaines d’actifs de données et implique des interactions automatiques et manuelles, prévoyez un temps de planification plus long, car cela nécessitera beaucoup plus de collaboration avec les propriétaires des données.

Analogie des marais de données

Un data swamp est un data lake non géré, presque inaccessible aux utilisateurs. Les marais de données proviennent du fait que vous n’implémentez pas de mesures de qualité des données et de gouvernance des données. Vous pouvez parfois voir un marais de données dans un entrepôt de données avec des modèles hybrides existants.

Une gouvernance et une organisation appropriées empêchent la création de marais de données. Lorsque vous créez une base solide pour votre lac de données, cela augmente vos chances d’obtenir un lac de données réussi et de la valeur métier.

À mesure que la taille, la complexité, le nombre de ressources de données et le nombre d’utilisateurs ou de départements de votre lac de données augmentent, il devient essentiel pour vous de disposer d’un système de catalogue de données robuste. Votre système de catalogue de données garantit que vos utilisateurs peuvent rechercher, baliser et classer les données pendant qu’ils traitent, consomment et gouvernent votre lac de données.

Pour plus d’informations, consultez Vue d’ensemble de la gouvernance des données.

Comptes de stockage dans un lac de données logique

Déterminez si votre organisation a besoin d’un ou de plusieurs comptes de stockage et réfléchissez à quels systèmes de fichiers vous avez besoin pour créer votre lac de données logique. Une technologie de stockage unique fournit plusieurs méthodes d’accès aux données et vous aide à les normaliser au sein de votre organisation.

Data Lake Storage Gen2 est un service PaaS (Platform as a Service) complètement managé. Les comptes de stockage ou les systèmes de fichiers multiples n’entraînent pas de coût monétaire tant que les données ne sont pas consultées ou stockées. Chaque ressource Azure comporte une charge administrative et opérationnelle pendant l’approvisionnement, la sécurité et la gouvernance, y compris les sauvegardes et la récupération d’urgence.

Remarque

Trois lacs de données sont illustrés dans chaque zone d’atterrissage des données. Cependant, selon vos besoins, vous pourriez consolider les couches **brute**, **enrichie** et **organisée** dans un seul compte de stockage. Vous pouvez créer un autre compte de stockage appelé « développement » où les consommateurs de données peuvent apporter d’autres produits de données utiles.

Tenez compte des facteurs suivants lorsque vous décidez d’utiliser une approche consolidée ou avec trois comptes de stockage :

Isolation des environnements de données et prévisibilité
- Vous pourriez isoler les activités exécutées dans les zones brutes et de développement pour éviter d’affecter potentiellement la zone organisée, qui contient des données de grande valeur pour la prise de décisions critiques.
Fonctions et fonctionnalités au niveau du compte de stockage
- Vous pouvez choisir si les options de gestion du cycle de vie ou les règles de pare-feu doivent être appliquées au niveau de la zone d’atterrissage des données ou du lac de données.
- Créez plusieurs comptes de stockage, sans silos indésirables.
- Évitez de créer des projets de données en double en raison du manque de visibilité ou de partage des connaissances au sein de votre organisation.
- Vérifiez que vous disposez d’une bonne gouvernance des données, d’outils de suivi de projet et d’un catalogue de données.
Interaction des outils et technologies de traitement des données avec des données sur plusieurs lacs en fonction des autorisations configurées
Lacs régionaux et lacs globaux
- Les processus ou consommateurs répartis dans le monde entier sur le lac sont sensibles à la latence causée par les distances géographiques.
- Le stockage des données localement est une bonne pratique.
- Les contraintes réglementaires et la souveraineté des données peuvent nécessiter que les données restent dans une région particulière.
- Pour plus d’informations, consultez déploiements multirégions.

Déploiements multirégion

Lorsqu’elles sont dictées par les règles de résidence des données ou par une exigence impliquant de conserver les données proches d’une base d’utilisateurs, vous devez peut-être créer des comptes Azure Data Lake dans plusieurs régions Azure. Vous devez créer une zone d’atterrissage de données dans une région, puis répliquer les données à l’échelle mondiale à l’aide de AzCopy, Azure Data Factory, ou de produits partenaires. Les données locales sont conservées dans la région, tandis que les données globales sont répliquées dans plusieurs régions.

Étapes suivantes

Zones et conteneurs de lac de données