Jak katalogować dane big data w usłudze Azure Data Catalog

Artykuł
12/15/2023

Ważne

Usługa Azure Data Catalog jest wycofywana 15 maja 2024 r.

Nie można już tworzyć nowych kont usługi Azure Data Catalog.

W przypadku funkcji wykazu danych użyj usługi Microsoft Purview , która oferuje ujednolicony nadzór nad danymi dla całego majątku danych.

Jeśli już używasz usługi Azure Data Catalog, musisz utworzyć plan migracji dla organizacji, aby przejść do usługi Microsoft Purview do 15 maja 2024 r.

Wprowadzenie

Usługa Microsoft Azure Data Catalog to w pełni zarządzana usługa w chmurze, która służy jako system rejestracji i systemu odnajdywania dla źródeł danych przedsiębiorstwa. Chodzi o pomoc ludziom w odnajdywanie, interpretowanie i używanie źródeł danych oraz pomaganie organizacjom w uzyskiwaniu większej wartości z istniejących źródeł danych, w tym danych big data.

Usługa Azure Data Catalog obsługuje rejestrację obiektów blob i katalogów usługi Azure Storage, a także plików i katalogów hdFS usługi Hadoop. Częściowo ustrukturyzowany charakter tych źródeł danych zapewnia dużą elastyczność. Jednak aby uzyskać największą wartość z rejestrowania ich w usłudze Azure Data Catalog, użytkownicy muszą rozważyć sposób organizowania źródeł danych.

Katalogi jako logiczne zestawy danych

Typowym wzorcem organizowania źródeł danych big data jest traktowanie katalogów jako zestawów danych logicznych. Katalogi najwyższego poziomu służą do definiowania zestawu danych, podczas gdy podfoldery definiują partycje, a pliki, które zawierają, przechowują same dane.

Przykładem tego wzorca może być:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

W tym przykładzie vehicle_maintenance_events i location_tracking_events reprezentują logiczne zestawy danych. Każdy z tych folderów zawiera pliki danych uporządkowane według roku i miesiąca w podfoldery. Każdy z tych folderów może potencjalnie zawierać setki lub tysiące plików.

W tym wzorcu rejestrowanie poszczególnych plików w usłudze Azure Data Catalog prawdopodobnie nie ma sensu. Zamiast tego zarejestruj katalogi reprezentujące zestawy danych, które mają znaczenie dla użytkowników pracujących z danymi.

Odwołania do plików danych

Wzorzec uzupełniający polega na przechowywaniu zestawów danych referencyjnych jako pojedynczych plików. Te zestawy danych można traktować jako "małą" stronę danych big data i są często podobne do wymiarów w modelu danych analitycznych. Pliki danych referencyjnych zawierają rekordy używane do zapewnienia kontekstu dla większości plików danych przechowywanych w innym miejscu w magazynie danych big data.

Przykładem tego wzorca może być:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Gdy analityk lub analityk danych pracuje z danymi zawartymi w większych strukturach katalogów, dane w tych plikach referencyjnych mogą służyć do udostępniania bardziej szczegółowych informacji dla jednostek, które są określane tylko według nazwy lub identyfikatora w większym zestawie danych.

W tym wzorcu warto zarejestrować poszczególne pliki danych referencyjnych w usłudze Azure Data Catalog. Każdy plik reprezentuje zestaw danych, a każdy z nich można dodawać adnotacje i odnajdywane indywidualnie.

Alternatywne wzorce

Wzorce opisane w poprzednich sekcjach to dwa możliwe sposoby organizowania magazynu danych big data, ale każda implementacja jest inna. Niezależnie od struktury źródeł danych podczas rejestrowania źródeł danych big data w usłudze Azure Data Catalog należy skoncentrować się na rejestrowaniu plików i katalogów reprezentujących zestawy danych, które są wartością dla innych osób w organizacji. Zarejestrowanie wszystkich plików i katalogów może zaśmiecać katalog, co utrudnia użytkownikom znalezienie potrzebnych informacji.

Podsumowanie

Rejestrowanie źródeł danych w usłudze Azure Data Catalog ułatwia odnajdywanie i zrozumienie. Rejestrując i dodając adnotacje do plików i katalogów danych big data reprezentujących zestawy danych logicznych, możesz ułatwić użytkownikom znajdowanie potrzebnych źródeł danych big data i korzystanie z nich.

Share via