Sélectionner une technologie de stockage de Big Data dans Azure

Notes

Le 29 février 2024, Azure Data Lake Storage Gen1 sera mis hors service. Pour plus d’informations, consultez l’annonce officielle. Si vous utilisez Azure Data Lake Storage Gen1, assurez-vous de migrer vers Azure Data Lake Storage Gen2 avant cette date. Pour découvrir comment, consultez Migrer d’Azure Data Lake Storage Gen1 vers Azure Data Lake Storage Gen2 à l’aide du portail Azure.

Si vous ne possédez pas déjà un compte Azure Data Lake Storage Gen1, vous ne pouvez pas en créer de nouveaux.

Cette rubrique compare les options de stockage de données des solutions Big Data, en particulier le stockage de données pour l’ingestion des données en bloc et le traitement par lots, par opposition aux magasins de données analytiques ou à l’ingestion en streaming en temps réel.

Quelles sont vos options à l’heure de choisir un stockage de données dans Azure ?

En fonction de vos besoins, il existe plusieurs options disponibles pour l’ingestion de données dans Azure.

Stockage de fichiers :

Bases de données NoSQL :

Bases de données analytiques :

Explorateur de données Azure

Objets blob de stockage Azure

Le stockage Azure est un service de stockage managé hautement disponible, sécurisé, durable, évolutif et redondant. Microsoft prend en charge la maintenance et gère les problèmes critiques pour vous. Le stockage Azure est la solution de stockage la plus omniprésente d’'Azure, en raison du nombre de services et d’outils qu’elle permet d’utiliser.

Vous pouvez utiliser divers services de stockage Azure pour stocker vos données. Le service Stockage Blob est l’option la plus flexible pour stocker les objets blob provenant de nombreuses sources de données. Les objets blob sont en fait des fichiers. Ils stockent des images, des documents, des fichiers HTML, des disques durs virtuels (VHD), du Big Data, par exemple les journaux, les sauvegardes de bases de données, etc., autrement dit à peu près tout. Les objets blob sont stockés dans des conteneurs, équivalents à des dossiers. Un conteneur regroupe un ensemble d’objets blob. Un compte de stockage peut contenir un nombre illimité de conteneurs, et un conteneur peut stocker un nombre illimité d’objets blob.

Le stockage Azure est un choix judicieux pour les solutions de Big Data et d’analyse, en raison de sa flexibilité, sa haute disponibilité et son faible coût. Il fournit des niveaux de stockage chaud, froid et archive pour différents cas d’usage. Pour plus d’informations, consultez Stockage Blob Azure : Niveaux de stockage chaud, froid et archive.

Le stockage d’objets blob Azure est accessible à partir de Hadoop (disponible via HDInsight). HDInsight peut utiliser un conteneur d’objets blob dans le stockage Azure comme système de fichiers par défaut pour le cluster. Grâce à une interface HDFS (Hadoop Distributed File System) fournie par un pilote WASB, l’ensemble des composants de HDInsight peut fonctionner directement sur les données structurées ou non structurées en tant qu’objets blob. Le stockage Blob Azure est également accessible via Azure Synapse Analytics à l'aide de sa fonctionnalité PolyBase.

Parmi les autres fonctionnalités qui font du stockage Azure un choix idéal, citons les suivantes :

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 est un dépôt hyperscale à l’échelle de l’entreprise pour les charges de travail analytiques du Big Data. Data Lake vous permet de capturer des données de toute taille, de tout type et à toute vitesse d'ingestion dans un emplacement sécurisé unique en vue d'une analyse opérationnelle et exploratoire.

Azure Data Lake Storage Gen1 n’impose aucune limite sur la taille des comptes, la taille des fichiers ou la quantité de données pouvant être stockée dans un lac de données. Les données sont stockées durablement via la création de plusieurs copies. Il n’existe aucune limite à la durée de stockage des données dans le lac de données. En plus de créer des copies de sauvegarde multiples de fichiers que vous pouvez utiliser en cas de défaillances inattendues, Data Lake répartit les parties d’un fichier sur plusieurs serveurs de stockage individuels. Cela améliore le débit de lecture lors de la lecture du fichier en parallèle de l'analyse de données.

Vous pouvez accéder à Azure Data Lake Storage Gen1 à partir d’Hadoop (disponible via HDInsight) à l’aide des API REST compatibles avec WebHDFS. Vous pouvez envisager cette solution comme une alternative au stockage Azure quand la taille de vos fichiers individuels ou combinés dépasse la taille maximale prise en charge par le stockage Azure. Toutefois, il existe des recommandations relatives au réglage des performances, que vous devez suivre quand vous utilisez Azure Data Lake Storage Gen1 en tant que stockage principal pour un cluster HDInsight ainsi que des recommandations spécifiques pour Spark, Hive et MapReduce. Veillez également à vérifier la disponibilité régionale d’Azure Data Lake Storage Gen1, car il n’est pas disponible dans autant de régions que le service Stockage Azure. De plus, il doit se trouver dans la même région que votre cluster HDInsight.

Couplé à Azure Data Lake Analytics, Azure Data Lake Storage Gen1 est conçu pour permettre un traitement analytique des données stockées. De plus, il est optimisé pour les performances dans les scénarios d’analytique données. Vous pouvez également accéder à Azure Data Lake Storage Gen1 via Azure Synapse à l’aide de sa fonctionnalité PolyBase.

Azure Cosmos DB

Azure Cosmos DB est un service de base de données multimodèle mondialement distribué de Microsoft. Azure Cosmos DB garantit des latences en millisecondes à un chiffre au 99e centile partout dans le monde, offre de multiples modèles de cohérence bien définis pour affiner les performances, et garantit une disponibilité optimale grâce à des fonctionnalités d’hébergement multiple.

Azure Cosmos DB est sans schéma. Il indexe automatiquement toutes les données sans avoir à s’occuper de la gestion des schémas et des index. Il est également multimodèle. Les modèles de données de types documents, valeurs clés, graphiques et colonnes sont pris en charge en mode natif.

Fonctionnalités d’Azure Cosmos DB :

HBase sur HDInsight

Apache HBase est une base de données NoSQL open source, basée sur Hadoop et modélisée d'après Google BigTable. HBase fournit un accès aléatoire et une forte cohérence pour de vastes quantités de données non structurées et semi-structurées, dans une base de données sans schéma, organisée par familles de colonnes.

Les données sont stockées dans les lignes d'une table et les données au sein d'une ligne sont regroupées par familles de colonnes. HBase est sans schéma dans le sens où ni les colonnes ni le type de données qui y sont stockées ne doivent être définis avant de pouvoir les utiliser. Le code open source peut être mis à l'échelle de façon linéaire pour gérer des pétaoctets de données dans des milliers de nœuds. Il peut reposer sur la redondance des données, le traitement par lots et d'autres fonctionnalités qui sont fournies par des applications distribuées dans l'écosystème Hadoop.

La mise en œuvre de HDInsight exploite l'architecture de montée en charge de HBase pour fournir un partitionnement automatique des tables, une cohérence forte pour les lectures et les écritures, et un basculement automatique. Les performances sont optimisées par la mise en cache en mémoire des lectures et par des écritures en diffusion à débit élevé. Dans la plupart des cas, vous souhaiterez certainement créer le cluster HBase à l’intérieur d’un réseau virtuel pour permettre aux autres applications et clusters HDInsight d’accéder directement aux tables.

Explorateur de données Azure

Azure Data Explorer est un service d’exploration de données rapide et hautement scalable pour les données des journaux et les données de télémétrie. Il vous aide à gérer les nombreux flux de données émis par les logiciels actuels pour vous permettre de collecter, de stocker et d’analyser les données. L’Explorateur de données Azure est idéal pour analyser des grands volumes de données provenant de n’importe quelle source de données, comme des sites web, des applications, des appareils IoT et plus encore. Ces données sont utilisées pour les diagnostics, la supervision, la création de rapports, l’apprentissage automatique et d’autres fonctionnalités d’analytique. Azure Data Explorer simplifie l’ingestion de ces données et vous permet d’effectuer des requêtes ad hoc complexes sur les données en quelques secondes.

Azure Data Explorer peut faire l’objet d’un scale-out linéaire pour augmenter l’ingestion et le débit de traitement des requêtes. Un cluster Azure Data Explorer peut être déployé sur un réseau virtuel pour activer des réseaux privés.

Critères de sélection principaux

Pour restreindre les choix, commencez par répondre aux questions suivantes :

  • Avez-vous besoin d'un stockage managé, rapide et basé sur le cloud pour tout type de données texte ou binaires ? Si oui, choisissez l’une des options de stockage de fichiers ou d’analytique.

  • Avez-vous besoin d’un stockage de fichiers optimisé pour des charges de travail d’analyse parallèles et un haut débit ou un nombre élevé d’E/S par seconde ? Si oui, choisissez une option privilégiant les performances des charges de travail d’analyse.

  • Avez-vous besoin de stocker des données non structurées ou semi-structurées dans une base de données sans schéma ? Si oui, sélectionnez l’une des options non relationnelles ou d’analytique. Comparez les options disponibles pour l’indexation et les modèles de base de données. Selon le type de données que vous devez stocker, les modèles de base de données primaire peuvent être le facteur le plus important.

  • Pouvez-vous utiliser le service dans votre région ? Vérifiez la disponibilité régionale de chaque service Azure. Consultez la disponibilité des produits par région.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Fonctionnalités de stockage de fichiers

Fonctionnalité Azure Data Lake Storage Gen1 Conteneurs de stockage d’objets blob Azure
Objectif Stockage optimisé pour les charges de travail d’analyse de données volumineuses Magasin d’objets polyvalent adapté à un large éventail de scénarios de stockage
Cas d'utilisation Données par lots, d’analyse de diffusion en continu et d’apprentissage machine (par exemple, fichiers journaux, données IoT, données sur le parcours de navigation, jeux de données volumineux) N’importe quel type de données texte ou binaires, par exemple données d’application principale, de sauvegarde, de stockage de médias pour la diffusion en continu, et d’usage général
Structure Système de fichiers hiérarchique Magasin d’objets avec espace de noms plat
Authentification En fonction des identités Microsoft Entra Basées sur les secrets partagés : clés d’accès au compte, clés de signature d’accès partagé et contrôle d’accès en fonction du rôle Azure (RBAC Azure)
Protocole d’authentification OAuth 2.0. Les appels doivent contenir un JWT (JSON Web Token) valide émis par Microsoft Entra ID Code d’authentification de message basé sur le hachage (HMAC). Les appels doivent contenir un hachage SHA-256 codé en Base64 sur une partie de la requête HTTP.
Autorisation Listes de contrôle d’accès (ACL) POSIX. Les listes ACL basées sur les identités Microsoft Entra peuvent être définies au niveau du fichier et du dossier. Pour l’autorisation au niveau des comptes, utilisez des clés d’accès au compte. Pour l’autorisation au niveau d'un compte, d'un conteneur ou d'un objet blob, utilisez des clés de signature d’accès partagé.
Audit Disponible. Disponible
Chiffrement au repos Transparent, côté serveur Transparent, côté serveur ; chiffrement côté client
Kits de développement logiciel pour développeur .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Performances des charges de travail d’analyse Optimisation des performances pour les charges de travail d’analyse parallèles, haut débit et nombre élevé d’E/S par seconde Non optimisé pour les charges de travail d’analyse
Limites de taille Aucune limite de taille pour les comptes, les fichiers ou le nombre de fichiers Limites spécifiques documentées ici
Géo-redondance Stockage localement redondant (LRS), stockage redondant interzone (ZRS), stockage géoredondant (GRS), stockage géographiquement redondant avec accès en lecture (RA-GRS). Stockage localement redondant (LRS), stockage redondant interzone (ZRS), stockage géoredondant (GRS), stockage géographiquement redondant avec accès en lecture (RA-GRS). Pour plus d’informations, voir ici

Fonctionnalités de base de données NoSQL

Fonctionnalité Azure Cosmos DB HBase sur HDInsight
Modèle de base de données primaire Stockage de documents, graphiques, stockage de valeurs clés, stockage de colonnes larges Stockage de colonnes larges
Index secondaires Oui Non
Prise en charge du langage SQL Oui Oui (à l’aide du pilote JDBC Phoenix)
Cohérence Fort, Obsolescence limitée, Session, Préfixe cohérent et Éventuel Remarque
Intégration native à Azure Functions Oui Non
Distribution mondiale automatique Oui Aucune réplication de cluster HBase ne peut être configurée entre les régions avec une cohérence finale
Modèle de tarification Unités de requête (RU) avec mise à l’échelle élastique facturées par seconde en fonction des besoins, stockage avec mise à l’échelle élastique Prix par minute du cluster HDInsight (mise à l’échelle horizontale des nœuds), stockage

Fonctionnalités de base de données analytique

Fonctionnalité Explorateur de données Azure
Modèle de base de données primaire Magasin relationnel (stockage de colonnes), télémétrie et série chronologique
Prise en charge du langage SQL Oui
Modèle de tarification Instances de cluster scalables de façon élastique
Authentification En fonction des identités Microsoft Entra
Chiffrement au repos Pris en charge, clés gérées par le client
Performances des charges de travail d’analyse Optimisation des performances pour les charges de travail d’analytique parallèles
Limites de taille Scalabilité linéaire

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes