Vue d’ensemble d’Azure Data Lake Storage pour l’analytique à l’échelle du cloud

Azure Data Lake est un stockage de données hautement évolutif et sécurisé pour vos charges de travail d’analytique haute performance. Vous pouvez créer des comptes de stockage au sein d’un groupe de ressources unique pour l’analytique à l’échelle du cloud. Nous vous recommandons de provisionner trois comptes Azure Data Lake Storage Gen2 au sein d’un même groupe de ressources, similaire au groupe de ressources storage-rg décrit dans l’article Vue d’ensemble de la zone d’atterrissage des données de l’architecture d’analytique à l’échelle du cloud.

Chaque compte de stockage au sein de votre zone d’atterrissage de données stocke les données dans l’une des trois étapes suivantes :

  • Données brutes
  • Données enrichies et organisées
  • Lacs de données de développement

Une application de données peut consommer des données enrichies et organisées à partir d’un compte de stockage qui a été ingéré dans un service d’ingestion automatique de données agnostique. Vous pouvez créer une application de données alignée sur une source si vous n’implémentez pas le moteur d’agnostique des données ou facilitez les connexions complexes pour l’ingestion de données à partir de sources opérationnelles. Cette application de données suit le même flux qu’un moteur d’agnostique de données lors de l’ingestion de données à partir de sources de données externes.

Data Lake Storage Gen2 prend en charge les listes de contrôle d’accès affinées (ACL) qui protègent les données au niveau du fichier et du dossier. Les listes de contrôle d’accès peuvent aider votre organisation à implémenter des mesures de sécurité strictes pour l’authentification et les autorisations relatives aux produits de données pour :

  • Stocker les données en toute sécurité via le chiffrement au repos.
  • Contrôles d’accès pour les utilisateurs et les groupes de sécurité Microsoft Entra via l’intégration de Microsoft Entra.

Planification des lacs de données

Lorsque vous planifiez un lac de données, tenez toujours compte de la structure, de la gouvernance et de la sécurité. Plusieurs facteurs influencent la structure et l’organisation de chaque lac de données :

  • Le type de données stockées
  • Comment ces données sont transformées
  • Qui accède à ses données
  • Quels sont les modèles d’accès typiques

Regrouper les consommateurs et les producteurs en fonction de leurs besoins en matière d’accès aux données. Il est judicieux de planifier l’implémentation et la gouvernance du contrôle d’accès sur votre lac de données.

Si votre lac de données ne contient que quelques ressources de données et des processus automatisés tels que l’extraction, la transformation, le chargement (ETL), votre planification devrait être assez facile. Si votre lac de données contient des centaines de ressources de données et implique une interaction automatisée et manuelle, attendez-vous à passer plus de temps à planifier, car vous aurez besoin d’une collaboration beaucoup plus importante de la part des propriétaires de données.

Analogie des marais de données

Un marais de données est un lac de données non géré qui est presque inaccessible aux utilisateurs. Les marais de données proviennent du fait que vous n’implémentez pas de mesures de qualité des données et de gouvernance des données. Vous pouvez parfois voir un marais de données dans un entrepôt de données avec des modèles hybrides existants.

Une gouvernance et une organisation appropriées empêchent la création de marais de données. Lorsque vous créez une base solide pour votre lac de données, cela augmente vos chances d’obtenir un lac de données réussi et de la valeur métier.

À mesure que la taille, la complexité, le nombre de ressources de données et le nombre d’utilisateurs ou de départements de votre lac de données augmentent, il devient essentiel pour vous de disposer d’un système de catalogue de données robuste. Votre système de catalogue de données garantit que vos utilisateurs peuvent rechercher, baliser et classer les données pendant qu’ils traitent, consomment et gouvernent votre lac de données.

Pour plus d’informations, consultez Vue d’ensemble de la gouvernance des données.

Comptes de stockage dans un lac de données logique

Déterminez si votre organisation a besoin d’un ou de plusieurs comptes de stockage et réfléchissez à quels systèmes de fichiers vous avez besoin pour créer votre lac de données logique. Une technologie de stockage unique fournit plusieurs méthodes d’accès aux données et vous aide à les normaliser au sein de votre organisation.

Data Lake Storage Gen2 est un service PaaS (Platform as a Service) complètement managé. Les comptes de stockage ou les systèmes de fichiers multiples n’entraînent pas de coût monétaire tant que les données ne sont pas consultées ou stockées. Notez que chaque ressource Azure est associée à une surcharge administrative et opérationnelle lors de l’approvisionnement, de la sécurité et de la gouvernance, notamment pour les sauvegardes et la récupération d’urgence.

Notes

Trois lacs de données sont illustrés dans chaque zone d’atterrissage des données. Toutefois, selon vos besoins, vous pouvez consolider les couches brutes, enrichies et organisées dans un compte de stockage. Vous pouvez créer un autre compte de stockage appelé « développement » où les consommateurs de données peuvent apporter d’autres produits de données utiles.

Tenez compte des facteurs suivants lorsque vous décidez d’utiliser une approche consolidée ou avec trois comptes de stockage :

  • Isolation des environnements de données et prévisibilité
    • Vous pouvez isoler les activités qui s’exécutent dans les zones brutes et de développement pour éviter l’effet potentiel sur la zone curée, qui contient des données avec une grande valeur métier nécessaire pour la prise de décision stratégique
  • Fonctions et fonctionnalités au niveau du compte de stockage
    • Vous pouvez choisir si les options de gestion du cycle de vie ou les règles de pare-feu doivent être appliquées au niveau de la zone d’atterrissage des données ou du lac de données.
    • Créez plusieurs comptes de stockage, sans silos indésirables.
    • Évitez de créer des projets de données en double en raison du manque de visibilité ou de partage des connaissances au sein de votre organisation.
    • Vérifiez que vous disposez d’une bonne gouvernance des données, d’outils de suivi de projet et d’un catalogue de données.
  • Interaction des outils et technologies de traitement des données avec des données sur plusieurs lacs en fonction des autorisations configurées
  • Lacs régionaux et lacs globaux
    • Les processus ou consommateurs répartis dans le monde entier sur le lac sont sensibles à la latence causée par les distances géographiques.
    • Le stockage des données localement est une bonne pratique.
    • Les contraintes réglementaires et la souveraineté des données peuvent nécessiter que les données restent dans une région particulière.
    • Pour plus d’informations, consultez déploiements multirégions.

Déploiements multirégion

Lorsqu’elles sont dictées par les règles de résidence des données ou par une exigence impliquant de conserver les données proches d’une base d’utilisateurs, vous devez peut-être créer des comptes Azure Data Lake dans plusieurs régions Azure. Pour ce faire, créez une zone d’atterrissage des données dans une région, puis répliquez les données globales à l’aide d’AzCopy, Azure Data Factory ou des produits tiers. Les données locales sont conservées dans la région, tandis que les données globales sont répliquées dans plusieurs régions.

Étapes suivantes

Zones et conteneurs de lac de données