Comprendre Azure Data Lake Storage Gen2

Effectué

Un Data Lake (lac de données) est un référentiel de données qui est stocké dans son format naturel, généralement sous la forme d’objets blob ou de fichiers. Azure Data Lake Storage est une solution de lac de données complète, évolutive et économique pour l’analytique hautes performances intégré à Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

Azure Data Lake Storage allie un système de fichiers à une plateforme de stockage pour vous permettre d’identifier rapidement des insights dans vos données. Data Lake Storage s’appuie sur les capacités du stockage Blob Azure pour les optimiser spécifiquement pour les charges de travail analytiques. Cette intégration permet d’obtenir des performances en analytique, les fonctionnalités de hiérarchisation et de gestion du cycle de vie des données du stockage Blob, ainsi que les fonctionnalités de haute disponibilité, de sécurité et de durabilité de Stockage Azure.

Avantages

Data Lake Storage est conçu pour gérer cette variété et ce volume de données à l’échelle des exaoctets lors du traitement sécurisé d’un débit de centaines de gigaoctets. Avec cela, vous pouvez utiliser Data Lake Storage Gen2 comme base pour les solutions en temps réel et de traitement par lots.

Accès compatible Hadoop

L’un des avantages de Data Lake Storage est de permettre le traitement des données comme si elles étaient stockées dans un système HDFS (Hadoop Distributed File System). Avec cette fonctionnalité, vous pouvez stocker les données dans un même emplacement et y accéder en utilisant des technologies de calcul, notamment Azure Databricks, Azure HDInsight et Azure Synapse Analytics, sans déplacer les données entre les environnements. L’Ingénieur Données a également la possibilité d’utiliser des mécanismes de stockage comme le format Parquet, qui est fortement compressé et fonctionne bien sur plusieurs plateformes utilisant un stockage en colonnes interne.

Sécurité

Data Lake Storage prend en charge les listes de contrôle d’accès (ACL) et les autorisations POSIX (Portable Operating System Interface) qui n’héritent pas des autorisations du répertoire parent. En fait, vous pouvez définir des autorisations au niveau du répertoire ou du fichier pour les données stockées au sein du lac de données, ce qui offre un système de stockage beaucoup plus sécurisé. Cette sécurité est configurable avec des technologies comme Hive et Spark ou des utilitaires comme l’Explorateur Stockage Azure qui s’exécute sur Windows, macOS et Linux. Toutes les données qui sont stockées sont chiffrées au repos avec des clés gérées par Microsoft ou le client.

Performances

Azure Data Lake Storage organise les données stockées dans une hiérarchie de répertoires et de sous-répertoires qui ressemble davantage à un système de fichiers, pour faciliter la navigation. Par conséquent, le traitement des données nécessite moins de ressources de calcul, ce qui réduit le temps et le coût.

Redondance des données

Data Lake Storage tire parti des modèles de réplication d’objets blob Azure qui fournissent la redondance des données dans un centre de données unique avec le stockage localement redondant (LRS) ou dans une région secondaire à l’aide de l’option de stockage géoredondant (GRS). Cette fonctionnalité garantit que vos données sont toujours disponibles et protégées en cas de catastrophe.

Conseil

Chaque fois qu’il effectue une planification pour un lac de données, un Ingénieur Données doit prendre en compte la structure, la sécurité et la gouvernance des données. Les facteurs susceptibles d’affecter l’organisation et la structure des lacs doivent être pris en compte, comme :

  • Types de données à stocker
  • Manière de transformer les données
  • Utilisateurs devant accéder aux données
  • Différents modèles d’accès typiques

Cette approche permet de déterminer comment planifier la gouvernance du contrôle d’accès sur votre lac. Les Ingénieurs Données doivent s’assurer de manière proactive que le lac ne devienne pas un « marécage de données » inaccessible et peu utile pour les utilisateurs en raison de l’absence de gouvernance des données et de mesures concernant la qualité des données. Établir une ligne de base et les meilleures pratiques suivantes pour Azure Data Lake permet de garantir une implémentation correcte et robuste afin que l’organisation puisse se développer et obtenir des insights pour aller plus loin.