Så här katalogiserar du stordata i Azure Data Catalog

Viktigt!

Azure Data Catalog dras tillbaka den 15 maj 2024.

Det går inte längre att skapa nya Azure Data Catalog-konton.

För datakatalogfunktioner använder du Microsoft Purview-tjänsten , som erbjuder enhetlig datastyrning för hela din dataegendom.

Om du redan använder Azure Data Catalog måste du skapa en migreringsplan för din organisation för att flytta till Microsoft Purview senast den 15 maj 2024.

Introduktion

Microsoft Azure Data Catalog är en fullständigt hanterad molntjänst som fungerar som ett system för registrering och identifieringssystem för företagsdatakällor. Det handlar om att hjälpa människor att upptäcka, förstå och använda datakällor och hjälpa organisationer att få mer värde från sina befintliga datakällor, inklusive stordata.

Azure Data Catalog stöder registrering av Azure Storage-blobbar och kataloger samt Hadoop HDFS-filer och kataloger. De här datakällornas halvstrukturerade karaktär ger stor flexibilitet. Men för att få ut mesta möjliga av att registrera dem med Azure Data Catalog måste användarna överväga hur datakällorna är ordnade.

Kataloger som logiska datauppsättningar

Ett vanligt mönster för att organisera stordatakällor är att behandla kataloger som logiska datauppsättningar. Kataloger på den översta nivån används för att definiera en datauppsättning, medan undermappar definierar partitioner och de filer som de innehåller lagrar själva data.

Ett exempel på det här mönstret kan vara:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

I det här exemplet representerar vehicle_maintenance_events och location_tracking_events logiska datauppsättningar. Var och en av dessa mappar innehåller datafiler som ordnas efter år och månad i undermappar. Var och en av dessa mappar kan potentiellt innehålla hundratals eller tusentals filer.

I det här mönstret är det förmodligen inte meningsfullt att registrera enskilda filer med Azure Data Catalog . Registrera i stället de kataloger som representerar de datauppsättningar som är meningsfulla för de användare som arbetar med data.

Referensdatafiler

Ett kompletterande mönster är att lagra referensdatauppsättningar som enskilda filer. Dessa datauppsättningar kan betraktas som den "lilla" sidan av stordata och liknar ofta dimensioner i en analysdatamodell. Referensdatafiler innehåller poster som används för att ge kontext för huvuddelen av de datafiler som lagras någon annanstans i stordatalagret.

Ett exempel på det här mönstret kan vara:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

När en analytiker eller dataexpert arbetar med data i de större katalogstrukturerna kan data i dessa referensfiler användas för att ge mer detaljerad information för entiteter som endast refereras till med namn eller ID i den större datamängden.

I det här mönstret är det klokt att registrera enskilda referensdatafiler med Azure Data Catalog. Varje fil representerar en datauppsättning och var och en kan kommenteras och identifieras individuellt.

Alternativa mönster

De mönster som beskrivs i föregående avsnitt är två möjliga sätt att organisera ett stordatalager, men varje implementering skiljer sig åt. Oavsett hur dina datakällor är strukturerade kan du när du registrerar stordatakällor med Azure Data Catalog fokusera på att registrera de filer och kataloger som representerar de datauppsättningar som är av värde för andra i din organisation. Att registrera alla filer och kataloger kan göra katalogen rörig, vilket gör det svårare för användarna att hitta det de behöver.

Sammanfattning

Genom att registrera datakällor med Azure Data Catalog blir det enklare att identifiera och förstå dem. Genom att registrera och kommentera stordatafiler och kataloger som representerar logiska datauppsättningar kan du hjälpa användarna att hitta och använda de stordatakällor de behöver.