Comment cataloguer des données volumineuses (Big Data) dans Azure Data Catalog ?

Important

Les nouveaux comptes Azure Data Catalog ne peuvent plus être créés.

Pour les fonctionnalités de catalogue de données mises à jour, utilisez le service Microsoft Purview, qui offre une gouvernance des données unifiée pour l’ensemble de votre patrimoine de données.

Si vous utilisez déjà Azure Data Catalog, vous devez créer un plan de migration pour que votre organisation se déplace vers Microsoft Purview d’août 2025.

Introduction

Microsoft Azure Data Catalog est un service cloud entièrement géré qui sert de système d'inscription et de détection des sources de données d'entreprise. Il vise essentiellement à aider les utilisateurs à détecter, comprendre et utiliser des sources de données, et à permettre aux organisations de mieux exploiter leurs sources données existantes, y compris le Big Data.

Azure Data Catalog prend en charge l’inscription de blobs et de répertoires Stockage Azure ainsi que des fichiers et des répertoires HDFS Hadoop. La nature semi-structurée des sources de données offre une grande flexibilité. Toutefois, pour réellement profiter de leur enregistrement dans Azure Data Catalog, les utilisateurs doivent comprendre comment sont organisées les sources de données.

Répertoires sous forme de jeux de données logiques

Un modèle répandu d’organisation de source de données volumineuses consiste à traiter des répertoires sous forme de jeux de données logique. Des répertoires de niveau supérieur sont utilisés pour définir un jeu de données, les sous-dossiers définissent des partitions, et les fichiers qu’ils contiennent stockent les données elles-mêmes.

Voici quelques exemples de ce modèle :

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

Dans cet exemple, vehicle_maintenance_events et location_tracking_events représentent les jeux de données logiques. Chacun de ces dossiers contient des fichiers de données organisés par année et par mois en sous-dossiers. Chacun de ces dossiers peut contenir des centaines ou des milliers de fichiers.

Dans ce modèle, l’enregistrement des fichiers individuels auprès d’Azure Data Catalog ne sert sans doute à rien. Au lieu de cela, enregistrez les répertoires qui représentent les jeux de données significatifs pour les utilisateurs travaillant avec ces données.

Référence de fichiers de données

Un modèle complémentaire consiste à stocker des jeux de données de référence sous forme de fichiers individuels. Ces jeux de données peuvent être considérés comme le côté « petit » du Big Data et sont souvent similaires aux dimensions d’un modèle de données analytiques. Les fichiers de données de référence contiennent des enregistrements utilisés pour offrir un contexte aux lots de fichiers de données stockées ailleurs dans le magasin de données volumineuses.

Voici quelques exemples de ce modèle :

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Lorsqu’un analyste ou un spécialiste des données travaille avec les données contenues dans des structures de répertoire plus grandes, les données présentes dans ces fichiers de référence fournissent des informations plus détaillées pour les entités référencées uniquement par nom ou ID du jeu de données plus grand.

Dans ce modèle, il est judicieux d’enregistrer les fichiers de données de référence avec Azure Data Catalog. Chaque fichier représente un jeu de données, et chacun d’eux peut être annoté et découvert individuellement.

Modèles alternatifs

Les modèles décrits dans les sections précédentes sont deux façons possibles d’organiser un magasin big data, mais chaque implémentation est différente. Quelle que soit la façon dont vos sources de données sont structurées, lors de l’enregistrement des sources de données Big Data auprès de Azure Data Catalog, concentrez-vous sur l’enregistrement des fichiers et des répertoires qui représentent les jeux de données qui ont une valeur pour les autres au sein de votre organisation. L’inscription de tous les fichiers et répertoires peut encombrer le catalogue, ce qui complique les opérations de recherche pour les utilisateurs.

Résumé

L’inscription des sources de données auprès de Azure Data Catalog les facilite leur détection et leur compréhension. En enregistrant et en annotant les fichiers et les répertoires de données volumineuses qui représentent les jeux de données logiques, vous pouvez aider les utilisateurs à trouver et à utiliser les sources de données volumineuses dont ils ont besoin.