Qu’est-ce qu’Azure Data Catalog ?
Important
Azure Data Catalog a été mis hors service le 15 mai 2024.
Pour les fonctionnalités du catalogue de données, utilisez le service Microsoft Purview, qui offre une gouvernance unifiée des données pour l’ensemble de votre patrimoine de données.
Azure Data Catalog est un service cloud entièrement géré permettant aux utilisateurs de détecter les sources de données, et de comprendre les sources de données qu’ils recherchent. Dans le même temps, Data Catalog permet aux organisations de mieux exploiter leurs investissements existants.
Avec Data Catalog, n’importe quel utilisateur (analyste, scientifique de données ou développeur) peut détecter, comprendre et utiliser des sources de données dans leur paysage de données. Data Catalog comprend un modèle crowdsourcing de métadonnées et d’annotations afin que tout le monde puisse contribuer à rendre les données détectables et utilisables. Il centralise l’ensemble des éléments qui permettent aux utilisateurs d’une organisation de partager leurs connaissances et de créer une communauté et une culture des données.
Défis des consommateurs de données en matière de découverte
La détection de sources de données d’entreprise est un processus organique basé sur des connaissances tribales. Cette approche soulève de nombreuses difficultés pour les entreprises qui souhaitent tirer le meilleur parti de leurs informations :
- Les utilisateurs peuvent ne pas savoir qu’une source de données existe, tant qu’ils ne sont pas en contact avec cette dernière dans le cadre d’un autre processus. Les sources de données ne sont pas enregistrées de manière centralisée.
- À moins de connaître l’emplacement d’une source de données, les utilisateurs ne peuvent pas se connecter aux données à l’aide d’une application cliente. Les expériences d’utilisation de données requièrent de la part des utilisateurs de connaître la chaîne de connexion ou le chemin d’accès.
- À moins de connaître l’emplacement de la documentation d’une source données, les utilisateurs ne peuvent pas comprendre les utilisations prévues des données. La documentation et les sources de données peuvent se trouver à différents emplacements et être utilisées par le biais d’expériences diverses.
- Si les utilisateurs ont des questions sur une ressource d’informations, ils doivent localiser l’expert ou l’équipe responsable des données et les faire intervenir en mode hors connexion. Il n’existe aucun lien explicite entre les données et les experts qui ont comme projet de les utiliser.
- Sauf si un utilisateur comprend le processus de demande d’accès à la source de données, la détection de la source de données et de sa documentation ne lui permet toujours pas d’accéder aux données.
Défis des producteurs de données en matière de découverte
Pendant que les consommateurs de données relèvent les défis mentionnés précédemment, les utilisateurs responsables de la production et de la gestion des ressources d’informations relèvent, quant à eux, des défis qui leur sont propres :
- L’annotation des sources de données avec des métadonnées descriptives est souvent peine perdue. En général, les applications clientes ignorent les descriptions stockées dans la source de données.
- La création de documentation pour les sources de données est souvent peine perdue. La synchronisation de la documentation avec les sources de données est une tâche constante. Les utilisateurs pourraient ne plus avoir confiance en la documentation si celle-ci paraît obsolète.
- Créer et gérer une documentation pour des sources de données est une tâche plutôt longue et complexe. Rendre disponible cette documentation pour tous les utilisateurs de la source de données peut l’être plus encore.
- Restreindre l’accès à la source de données et veiller à ce que les utilisateurs de données sachent comment demander l’accès est un défi récurrent.
Lorsqu’ils sont combinés, ces défis représentent un obstacle majeur pour les entreprises qui souhaitent encourager et promouvoir l’utilisation et la compréhension des données d’entreprise.
Azure Data Catalog peut être utile
Data Catalog est conçu pour résoudre ces problèmes et permettre aux entreprises de tirer le meilleur parti de leurs ressources d’informations existantes. Data Catalog rend les sources de données facilement détectables et compréhensibles par les utilisateurs qui gèrent les données.
Data Catalog fournit un service cloud dans lequel une source de données peut être inscrite. Les données restent à leur emplacement existant, mais une copie de leurs métadonnées, ainsi qu’une référence à l’emplacement de la source de données, sont ajoutées à Data Catalog. Les métadonnées sont également indexées de manière à ce que chaque source de données soit facilement détectable via la recherche, et compréhensible pour les utilisateurs qui la découvrent.
Après l’inscription d’une source de données, ses métadonnées peuvent être enrichies. Les métadonnées peuvent être ajoutées par l’utilisateur qui a inscrit la source de données ou par d’autres utilisateurs de l’entreprise. Tous les utilisateurs peuvent annoter une source de données en fournissant des descriptions, des balises ou d'autres métadonnées, telles que de la documentation, et traiter la demande d’accès à la source de données. Ces métadonnées descriptives complètent les métadonnées structurelles (telles que les noms de colonnes et les types de données) inscrites à partir de la source de données.
La détection, la compréhension et l’utilisation des sources de données sont le principal objectif de l’inscription des sources. Les utilisateurs professionnels peuvent avoir besoin de données pour le décisionnel, le développement d’applications, la science des données ou toute autre tâche nécessitant des données adéquates. Ils peuvent utiliser l’expérience de détection de Data Catalog pour rechercher rapidement des données qui correspondent à leurs besoins, comprendre les données pour évaluer leur pertinence par rapport à l’utilisation et utiliser les données en ouvrant la source de données dans l’outil de leur choix.
Dans le même temps, les utilisateurs peuvent contribuer au catalogue en balisant, en documentant et en annotant les sources de données qui ont déjà été enregistrées. Ils peuvent également enregistrer de nouvelles sources de données, qui peuvent ensuite être détectées, comprises et utilisées par la communauté d’utilisateurs du catalogue.
En savoir plus sur Data Catalog
Pour en savoir plus sur les fonctions de Data Catalog, voir :
- Inscription de sources de données
- Détection de sources de données
- Annotation de sources de données
- Comment documenter des sources de données
- Connexion aux sources de données
- Travail avec du Big Data
- Gestion des ressources de données
- Configuration du glossaire métier
- Forum aux questions