Big Data-adatok katalógusa az Azure Data Catalogban

Cikk
04/25/2024

Fontos

Az Azure Data Catalog 2024. május 15-én megszűnik.

Új Azure Data Catalog-fiókok már nem hozhatók létre.

Az adatkatalógus funkcióihoz használja a Microsoft Purview szolgáltatást, amely egységes adatszabályozást biztosít a teljes adattulajdonhoz.

Ha már használja az Azure Data Catalogot, létre kell hoznia egy migrálási tervet a szervezet számára, hogy 2024. május 15-ig a Microsoft Purview-ba költözjön.

Bevezetés

A Microsoft Azure Data Catalog egy teljes körűen felügyelt felhőszolgáltatás, amely regisztrációs és felderítési rendszerként szolgál a vállalati adatforrásokhoz. Ez az egész arról szól, hogy segítsen a felhasználóknak az adatforrások felderítésében, megértésében és felhasználásában, valamint a szervezeteknek abban, hogy több értéket szerezzenek a meglévő adatforrásaikból, beleértve a big data-t is.

Az Azure Data Catalog támogatja az Azure Storage-blobok és -könyvtárak, valamint a Hadoop HDFS-fájlok és -könyvtárak regisztrációját. Ezeknek az adatforrásoknak a félig strukturált jellege nagy rugalmasságot biztosít. Ahhoz azonban, hogy a felhasználók a lehető legtöbb értéket kapják az Azure Data Catalogban való regisztrálásukból, a felhasználóknak figyelembe kell venniük az adatforrások rendszerezését.

Könyvtárak logikai adatkészletekként

A big data-források rendszerezésének gyakori mintája a könyvtárak logikai adathalmazként való kezelése. A felső szintű címtárak az adatkészletek definiálására szolgálnak, míg az almappák partíciókat határoznak meg, és az általuk tárolt fájlok magukban tárolják az adatokat.

Példa erre a mintára:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

Ebben a példában vehicle_maintenance_events és location_tracking_events logikai adatkészleteket jelölnek. Ezek a mappák olyan adatfájlokat tartalmaznak, amelyek év és hónap szerint almappákba vannak rendezve. Ezek a mappák akár több száz vagy több ezer fájlt is tartalmazhatnak.

Ebben a mintában az egyes fájlok Azure Data Catalogban való regisztrálásának valószínűleg nincs értelme. Ehelyett regisztrálja azokat az adatkészleteket képviselő könyvtárakat, amelyek az adatokkal dolgozó felhasználók számára jelentőséggel bírnak.

Referenciaadatfájlok

A kiegészítő minta a referenciaadatkészletek egyedi fájlokként való tárolása. Ezek az adathalmazok a big data "kis" oldalának tekinthetők, és gyakran hasonlítanak az elemzési adatmodell dimenzióihoz. A referenciaadatfájlok olyan rekordokat tartalmaznak, amelyek a big data store más részein tárolt adatfájlok nagy részének kontextusát biztosítják.

Példa erre a mintára:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Ha egy elemző vagy adatelemző a nagyobb könyvtárstruktúrákban található adatokkal dolgozik, az ezekben a referenciafájlokban szereplő adatokkal részletesebb információkat kaphat az olyan entitásokról, amelyekre csak név vagy azonosító hivatkozik a nagyobb adathalmazban.

Ebben a mintában érdemes regisztrálni az egyes referenciaadatfájlokat az Azure Data Catalogban. Minden fájl egy adathalmazt jelöl, és mindegyik külön-külön jegyzetelhető és felderíthető.

Alternatív minták

Az előző szakaszokban ismertetett minták két lehetséges módszert jelentenek egy big data storage rendszerezésére, de mindegyik implementáció eltérő. Függetlenül attól, hogy az adatforrások hogyan vannak strukturálva, a big data-források Azure Data Catalogban való regisztrálásakor a vállalaton belül mások számára értékes adathalmazokat képviselő fájlok és könyvtárak regisztrálására kell összpontosítania. Az összes fájl és könyvtár regisztrálása zsúfolttá teheti a katalógust, így a felhasználók nehezebben találják meg, amire szükségük van.

Összegzés

Az adatforrások Regisztrálása az Azure Data Catalogban megkönnyíti a feltárást és a megértést. A logikai adatkészleteket képviselő big data-fájlok és könyvtárak regisztrálásával és megjegyzésekkel segíthet a felhasználóknak megtalálni és használni a szükséges big data-forrásokat.

Megosztás a következőn keresztül: