Sélectionner une technologie de stockage de Big Data dans Azure

2025-05-08

Cet article compare les options de stockage de données pour les solutions de big data, plus précisément le stockage de données pour l’ingestion de données en masse et le traitement par lots, par opposition aux datastores analytiques ou à l’ingestion de flux en temps réel.

Quelles sont vos options à l’heure de choisir un stockage de données dans Azure ?

En fonction de vos besoins, il existe plusieurs options disponibles pour l’ingestion de données dans Azure.

Lac de données logique unifié :

OneLake dans Microsoft Fabric

Stockage de fichiers :

Bases de données NoSQL :

Bases de données analytiques :

Explorateur de données Azure

OneLake dans Fabric

OneLake dans Fabric est un lac de données unifié et logique adapté à l’ensemble de l’organisation. Il sert de hub central pour toutes les données analytiques et est inclus avec chaque tenant de Microsoft Fabric. OneLake dans Fabric repose sur la base de Azure Data Lake Storage Gen2.

OneLake dans Fabric :

Prend en charge les types de fichiers structurés et non structurés.
Stocke toutes les données tabulaires au format Delta Parquet.
Fournit un lac de données unique dans les limites du locataire, régi par défaut.
Prend en charge la création d’espaces de travail au sein d’un tenant afin qu’une organisation puisse distribuer la propriété et les politiques d’accès.
Prend en charge la création de différents éléments de données, tels que lakehouses et entrepôts, à partir desquels vous pouvez accéder aux données.

OneLake sert d’emplacement de stockage commun pour l’ingestion, la transformation, les insights en temps réel et les visualisations business intelligence. Il centralise divers services Fabric et stocke les éléments de données que toutes les charges de travail utilisent dans Fabric. Pour choisir le bon datastore pour vos charges de travail Fabric, veuillez consulter la section Guide de décision Fabric : choisir un datastore.

Objets blobs Stockage Azure

Le stockage Azure est un service de stockage managé hautement disponible, sécurisé, durable, évolutif et redondant. Microsoft prend en charge la maintenance et gère les problèmes critiques pour vous. Le stockage Azure est la solution de stockage la plus omniprésente d’'Azure, en raison du nombre de services et d’outils qu’elle permet d’utiliser.

Vous pouvez utiliser divers services de stockage Azure pour stocker vos données. Le service Stockage Blob est l’option la plus flexible pour stocker les objets blob provenant de nombreuses sources de données. Les objets blob sont en fait des fichiers. Ils stockent des images, des documents, des fichiers HTML, des disques durs virtuels (VHD), du Big Data, par exemple les journaux, les sauvegardes de bases de données, etc., autrement dit à peu près tout. Les objets blob sont stockés dans des conteneurs, équivalents à des dossiers. Un conteneur permet de regrouper un ensemble de blobs. Un compte de stockage peut contenir un nombre illimité de conteneurs, un conteneur peut stocker un nombre illimité de blobs.

Le stockage Azure est un choix judicieux pour les solutions de Big Data et d’analyse, en raison de sa flexibilité, sa haute disponibilité et son faible coût. Il fournit des niveaux de stockage chaud, froid et archive pour différents cas d’usage. Pour plus d’informations, consultez Stockage Blob Azure : niveaux de stockage chaud, froid et archive.

Le Stockage Blob Azure est accessible à partir de Hadoop (disponible via HDInsight). HDInsight peut utiliser un conteneur d’objets blob dans le stockage Azure comme système de fichiers par défaut pour le cluster. Grâce à une interface Hadoop Distributed File System (HDFS) fournie par un pilote WASB, l'ensemble des composants de HDInsight peut opérer directement sur des données structurées ou non structurées stockées sous forme de blobs. Le stockage Blob Azure est également accessible via Azure Synapse Analytics à l'aide de sa fonctionnalité PolyBase.

Parmi les autres fonctionnalités qui font du stockage Azure un choix idéal, citons les suivantes :

Stratégies d’accès concurrentiel multiples
Options de récupération d’urgence et de haute disponibilité
Chiffrement au repos
Contrôle d’accès en fonction du rôle Azure (RBAC) pour contrôler l’accès en tirant parti d’utilisateurs et de groupes Microsoft Entra.

Data Lake Storage Gen2

Data Lake Storage Gen2 est un référentiel unique et centralisé où vous pouvez stocker toutes vos données, à la fois structurées et non structurées. Un lac de données permet à votre organisation de stocker, d’accéder et d’analyser rapidement et facilement un large éventail de données dans un même emplacement. Avec un lac de données, vous n’avez pas besoin de vous conformer à vos données pour les adapter à une structure existante. Au lieu de cela, vous pouvez stocker vos données dans un format brut ou natif, généralement sous la forme de fichiers ou d’objets BLOB (Binary Large Object).

Data Lake Storage Gen2 fait converger les fonctionnalités d’Azure Data Lake Storage Gen1 avec le service Stockage Blob Azure. Par exemple, Data Lake Storage Gen2 fournit une sémantique du système de fichiers, une sécurité au niveau des fichiers et la mise à l’échelle. Comme ces fonctionnalités sont basées sur le Stockage Blob, vous bénéficiez également d’un stockage hiérarchisé à faible coût avec des fonctionnalités de haute disponibilité et de récupération d’urgence.

Data Lake Storage Gen2 fait du stockage Azure la base pour créer des dépôts Data Lake d’entreprise sur Azure. Conçu dès le départ pour traiter plusieurs téraoctets d’informations tout en assurant des centaines de gigaoctets de débit, Data Lake Storage Gen2 vous permet de facilement gérer d'importants volumes de données.

Base de données Azure Cosmos DB

Azure Cosmos DB est un service de base de données multimodèle mondialement distribué de Microsoft. Azure Cosmos DB garantit des latences à un seul chiffre en millisecondes au 99e centile partout dans le monde, fournit plusieurs modèles de cohérence bien définis pour affiner les performances et garantit une haute disponibilité avec des capacités multi-homing.

Azure Cosmos DB est sans schéma. Il indexe automatiquement toutes les données sans avoir à s’occuper de la gestion des schémas et des index. Il est également multimodèle. Les modèles de données de types documents, valeurs clés, graphiques et colonnes sont pris en charge en mode natif.

Fonctionnalités d’Azure Cosmos DB :

Géoréplication
Mise à l’échelle élastique du débit et du stockage à l’échelon mondial
Cinq niveaux de cohérence bien définis

HBase sur HDInsight

Apache HBase est une base de données NoSQL open source, basée sur Hadoop et modélisée d'après Google BigTable. HBase fournit un accès aléatoire et une forte cohérence pour de vastes quantités de données non structurées et semi-structurées, dans une base de données sans schéma, organisée par familles de colonnes.

Les données sont stockées dans les lignes d'une table et les données au sein d'une ligne sont regroupées par familles de colonnes. HBase est sans schéma dans le sens où ni les colonnes ni le type de données qui y sont stockées ne doivent être définis avant de pouvoir les utiliser. Le code open source peut être mis à l'échelle de façon linéaire pour gérer des pétaoctets de données dans des milliers de nœuds. Il peut reposer sur la redondance des données, le traitement par lots et d'autres fonctionnalités qui sont fournies par des applications distribuées dans l'écosystème Hadoop.

La mise en œuvre de HDInsight utilise l'architecture extensible de HBase pour fournir un partitionnement automatique des tables, une cohérence forte pour les lectures et les écritures, et un basculement automatique. Les performances sont optimisées par la mise en cache en mémoire des lectures et par des écritures en diffusion à débit élevé. Dans la plupart des cas, vous souhaitez créer le cluster HBase à l’intérieur d’un réseau virtuel afin que d’autres clusters HDInsight et applications puissent accéder directement aux tables.

Explorateur de données Azure

Azure Data Explorer est un service d’exploration de données rapide et hautement scalable pour les données des journaux et les données de télémétrie. Il vous aide à gérer les nombreux flux de données émis par les logiciels actuels pour vous permettre de collecter, de stocker et d’analyser les données. L’Explorateur de données Azure est idéal pour analyser des grands volumes de données provenant de n’importe quelle source de données, comme des sites web, des applications, des appareils IoT et plus encore. Ces données sont utilisées pour les diagnostics, la supervision, la création de rapports, l’apprentissage automatique et d’autres fonctionnalités d’analytique. Azure Data Explorer facilite l’ingestion de ces données et vous permet de réaliser des requêtes complexes non planifiées sur les données en quelques secondes.

Azure Data Explorer peut faire l’objet d’un scale-out linéaire pour augmenter l’ingestion et le débit de traitement des requêtes. Un cluster Azure Data Explorer peut être déployé sur un réseau virtuel pour activer des réseaux privés.

Critères de sélection principaux

Pour restreindre les choix, commencez par répondre aux questions suivantes :

Avez-vous besoin d’un lac de données unifié avec prise en charge multicloud, gouvernance robuste et intégration transparente avec les outils analytiques ? Si oui, alors choisissez OneLake dans Fabric pour une gestion simplifiée des données et une collaboration améliorée.
Avez-vous besoin d'un stockage managé, rapide et basé sur le cloud pour tout type de données texte ou binaires ? Si oui, alors choisissez l’une des options de stockage de fichiers ou d’analytique.
Avez-vous besoin d’un stockage de fichiers optimisé pour des charges de travail d’analyse parallèles et un haut débit ou un nombre élevé d’IOPS ? Si oui, choisissez une option privilégiant les performances des charges de travail d’analyse.
Avez-vous besoin de stocker des données non structurées ou semi-structurées dans une base de données sans schéma ? Si c’est le cas, sélectionnez l’une des options non relationnelles ou analytiques. Comparez les options disponibles pour l’indexation et les modèles de base de données. En fonction du type de données que vous devez stocker, les principaux modèles de base de données peuvent être le facteur déterminant.
Pouvez-vous utiliser le service dans votre région ? Vérifiez la disponibilité régionale de chaque service Azure. Pour plus d’informations, consultez Disponibilité des produits par région.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Capacités de OneLake dans Fabric

Capacité	OneLake dans Fabric
Lac de données unifié	Fournit un lac de données unifié unique pour l’ensemble de l’organisation, ce qui élimine les silos de données.
Prise en charge multicloud	Prend en charge l’intégration et la compatibilité avec diverses plateformes cloud.
Gouvernance des données	Inclut des fonctionnalités telles que la traçabilité des données, la protection des données, la certification et l’intégration de catalogues.
Hub de données centralisé	Agit comme un hub centralisé pour la découverte et la gestion des données.
Support du moteur analytique	Compatible avec plusieurs moteurs analytiques. Cette compatibilité permet à divers outils et technologies de fonctionner sur les mêmes données.
Sécurité et conformité	Assure que les données sensibles restent sécurisées et que l’accès est limité aux utilisateurs autorisés uniquement.
Simplicité d'utilisation	Fournit une conception conviviale qui est automatiquement disponible avec chaque tenant Fabric et ne nécessite aucune configuration.
Scalabilité	Capable de gérer de grands volumes de données provenant de diverses sources.

Fonctionnalités de stockage de fichiers

Capacité	Data Lake Storage Gen2	Conteneur de Stockage Blob Azure
Objectif	Stockage optimisé pour les charges de travail d’analyse de données volumineuses	Magasin d’objets polyvalent adapté à un large éventail de scénarios de stockage
Cas d'utilisation	Données par lots, analytique en streaming et apprentissage machine (par exemple, fichiers journaux, données IoT, flux de clics, jeux de données volumineux)	N’importe quel type de données texte ou binaires, par exemple données d’application principale, de sauvegarde, de stockage de médias pour la diffusion en continu, et d’usage général
Structure	Système de fichiers hiérarchique	Magasin d’objets avec espace de noms plat
Authentification	En fonction des identités Microsoft Entra	Basées sur les secrets partagés : clés d’accès au compte, clés de signature d’accès partagé et contrôle d’accès en fonction du rôle Azure (RBAC Azure)
Protocole d’authentification	Autorisation ouverte (OAuth) 2.0. Les appels doivent contenir un JWT (JSON Web Token) valide émis par Microsoft Entra ID	Code d’authentification de message basé sur le hachage (HMAC). Les appels doivent contenir un hachage SHA-256 codé en Base64 sur une partie de la requête HTTP.
Autorisation	Listes de contrôle d’accès (ACL) de POSIX (Portable Operating System Interface). Les listes ACL basées sur les identités Microsoft Entra peuvent être définies au niveau du fichier et du dossier.	Pour l’autorisation au niveau des comptes, utilisez des clés d’accès au compte. Pour l’autorisation au niveau d'un compte, d'un conteneur ou d'un objet blob, utilisez des clés de signature d’accès partagé.
Audit	Disponible.	Disponible
Chiffrement au repos	Transparent, côté serveur	Transparent, côté serveur ; chiffrement côté client
Kits de développement logiciel pour développeur	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Performances des charges de travail d’analyse	Optimisation des performances pour les charges de travail d’analyse parallèles, haut débit et nombre élevé d’IOPS	Non optimisé pour les charges de travail d’analyse
Limites de taille	Aucune limite de taille pour les comptes, les fichiers ou le nombre de fichiers	Limites spécifiques documentées ici
Géo-redondance	Localement redondant (stockage localement redondant (LRS)), redondant globalement (stockage géoredondant (GRS)), accès en lecture globalement redondant (stockage géoredondant avec accès en lecture (RA-GRS)), redondant interzone (stockage redondant interzone (ZRS)).	Stockage localement redondant (LRS), stockage redondant interzone (ZRS), stockage géoredondant (GRS), stockage géographiquement redondant avec accès en lecture (RA-GRS). Pour plus d'informations, consultez la rubrique Redondance d'Azure Storage.

Fonctionnalités de base de données NoSQL

Capacité	Base de données Azure Cosmos DB	HBase sur HDInsight
Modèle de base de données primaire	Stockage de documents, graphiques, stockage de valeurs clés, stockage de colonnes larges	Stockage de colonnes larges
Index secondaires	Oui	Non
Prise en charge du langage SQL	Oui	Oui (à l’aide du pilote JDBC Phoenix)
Cohérence	Fort, obsolescence limitée, session, préfixe cohérent et éventuel	Remarque
Intégration native à Azure Functions	Oui	Non
Distribution mondiale automatique	Oui	Aucune réplication de cluster HBase ne peut être configurée entre les régions avec une cohérence finale
Modèle de tarification	Unités de requête (RU) avec mise à l’échelle élastique facturées par seconde en fonction des besoins, stockage avec mise à l’échelle élastique	Prix par minute du cluster HDInsight (mise à l’échelle horizontale des nœuds), stockage

Fonctionnalités de base de données analytique

Capacité	Explorateur de données Azure
Modèle de base de données primaire	Magasin relationnel (stockage de colonnes), télémétrie et série chronologique
Prise en charge du langage SQL	Oui
Modèle de tarification	Instances de cluster scalables de façon élastique
Authentification	En fonction des identités Microsoft Entra
Chiffrement au repos	Pris en charge, clés gérées par le client
Performances des charges de travail d’analyse	Optimisation des performances pour les charges de travail d’analytique parallèles
Limites de taille	Scalabilité linéaire

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Zoiner Tejada | CEO et Architecte