Adatszabványosítás

Cikk
01/10/2024

Az adatok különböző formátumban érkeznek a Data Lake-fiókokba. Ezek a formátumok közé tartoznak az emberi olvasásra alkalmas formátumok, például a JSON. CSV- vagy XML-fájlok, valamint tömörített bináris formátumok, például .tar vagy .gz. Az érkező adatok is számos méretben érkeznek, néhány szerkesztett fájltól kezdve egy teljes SQL-tábla exportálásán át. Az adatok nagy számú kis méretű fájlként is érkezhetnek, például egy IoT-megoldás valós idejű eseményeiként.

Bár az Azure Data Lake Storage Gen2 korlátozás nélkül támogatja a mindenféle adat tárolását, körültekintően vegye figyelembe az adatformátumokat a folyamat hatékonyságának és a költségek optimalizálásának biztosítása érdekében.

Számos szervezet egységesíti a betöltési formátumot, és elkülöníti a számítást a tárterülettől. Emiatt a Delta Lake formátum lett az adatbetöltés előnyben részesített szabványa a dúsítási rétegen keresztül. A bővítési rétegből az adatalkalmazás csapata a használati esetnek megfelelő formátumban tudja kiszolgálni az adatokat.

Megjegyzés:

A Delta Lake használatával a kötegelt és a streamelési használati eseteket is támogathatja a kezdeti adatbetöltéshez a dúsítási rétegen keresztül.

Ez a cikk áttekintést nyújt a Delta Lake-ről, annak teljesítményéről, valamint arról, hogy hogyan segít a megfelelőségi támogatás elérésében, és hogyan szabványosíthatja az adatokat a forrástól a bővítési rétegig.

Delta Lake

A Delta Lake egy nyílt forráskódú tárolási réteg, amely ACID-tranzakciókat (atomitást, konzisztenciát, elkülönítést és tartósságot) biztosít a big data számítási feladatokhoz és az Apache Sparkhoz. Az Azure Synapse Analytics és az Azure Databricks egyaránt kompatibilis a Linux Foundation Delta Lake szolgáltatással.

A Delta Lake főbb funkciói

Funkció	Leírás
ACID-tranzakciók	A data lake-ek általában több folyamaton és folyamaton keresztül vannak feltöltve, amelyek némelyike olvasással egyidejűleg ír adatokat. Az adatmérnökök egy manuális, hibalehetőséget kihasználó folyamaton jártak végig, hogy biztosítsák az adatintegritást a Delta Lake és a tranzakciók használatba vétele előtt. A Delta Lake ismerős ACID-tranzakciókat hoz létre a data lake-ekben. Ez biztosítja a legerősebb elkülönítési szintet, szerializálhatóságot. További információ: Búvárkodás a Delta Lake-ben: A tranzakciónapló kicsomagolása.
Méretezhető metaadatok kezelése	Big Data esetén még a metaadatok is lehetnek "big data". A Delta Lake ugyanúgy kezeli a metaadatokat, mint a többi adatot. A Spark elosztott feldolgozási teljesítményét használja az összes metaadat kezelésére. Emiatt a Delta Lake könnyen képes kezelni a petabájt méretű táblákat több milliárd partícióval és fájllal.
Time Travel (adatverzió)	A módosítások "visszavonása" vagy az előző verzióra való visszalépés a tranzakciók egyik fő funkciója. A Delta Lake pillanatképeket biztosít az adatokról, amelyek lehetővé teszik az adatok korábbi verzióira való visszaállítást naplózáshoz, visszaállításhoz vagy kísérletek reprodukálásához. További információ a Delta Lake Time Travel nagy méretű Data Lake-ekhez való bevezetéséről.
Formátum megnyitása	Az Apache Parquet, a Delta Lake alapformátuma lehetővé teszi a hatékony tömörítési és kódolási sémák alkalmazását.
Egyesített Kötegelt és streamelési forrás és fogadó	A Delta Lake egyik táblája egyszerre kötegelt tábla, valamint streamelési forrás és fogadó. Az adatbetöltés streamelése, a köteg előzményeinek feltöltése és az interaktív lekérdezések mind a dobozon kívülre kerülnek.
Sémaérvényesítés	A sémakényszerítés segít biztosítani, hogy megfelelő adattípusokkal és kötelező oszlopokkal rendelkezzen, ami megakadályozza az adatok inkonzisztencia-hiányát a hibás adatoktól. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution
Sémafejlődés	A Delta Lake lehetővé teszi, hogy automatikusan alkalmazza a módosításokat egy táblaséma esetében anélkül, hogy migrálási DDL-t kellene írnia. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution
Naplózási előzmények	A Delta Lake tranzakciónaplója az adatokon végzett minden módosítás részleteit rögzíti. Ezek a rekordok az összes módosítás teljes naplózási nyomvonalát biztosítják.
Frissítések és törlések	A Delta Lake támogatja a Scala, a Java, a Python és az SQL API-kat a különböző funkciókhoz. Az egyesítési, frissítési és törlési műveletek támogatása segít megfelelni a megfelelőségi követelményeknek. További információ: A Delta Lake 0.6.1 kiadás bejelentése, a Delta Lake 0.7 kiadás bejelentése, valamint a Python API-kat használó Egyszerű, Reliable Upserts és Deletes a Delta Lake-táblákon (amely kódrészleteket tartalmaz a DML-parancsok egyesítéséhez, frissítéséhez és törléséhez).
100%-ig kompatibilis az Apache Spark API-val	A fejlesztők minimális módosítással használhatják a Delta Lake-t a meglévő adatfolyamaikon, mivel teljes mértékben kompatibilisek a meglévő Spark-implementációkkal.

További információ: Delta Lake Project.

A teljes dokumentációért látogasson el a Delta Lake dokumentációs oldalára

Teljesítmény

Sok kis fájl használata gyakran a jobb teljesítményhez és a megnövekedett olvasási/listaműveletek költségeihez vezet. Az Azure Data Lake Storage Gen2 nagyobb fájlokra van optimalizálva, amelyek lehetővé teszik az elemzési feladatok gyorsabb és alacsonyabb költséggel történő futtatását.

A Delta Lake számos olyan funkciót tartalmaz, amelyek segíthetnek a teljesítmény optimalizálásában a fájlkezeléssel.

Examples include:

A tranzakciónapló minimálisra csökkenti a költséges LIST-műveleteket.
A Z-Ordering (többdimenziós fürtözés) lehetővé teszi az optimalizált predikátumleküldést a lekérdezésszűrőkhöz.
A natív gyorsítótárazás és a lekérdezésoptimalizálás csökkenti a szükséges tárterület-vizsgálatot. További információ: Teljesítmény optimalizálása gyorsítótárazással.
AZ OPTIMIZE a kisebb fájlokat nagyobbakká alakítja.

Ezeket az optimalizálásokat az adatbetöltési folyamat részévé teheti az adatok frissességének és teljesítményének fenntartása érdekében.

Data Lake particionálása

Az adatparticionálás magában foglalja az adatok adattárban való rendszerezését, hogy nagy méretű adatokat kezelhessen, és szabályozhassa az adathozzáférést. A particionálás javíthatja a skálázhatóságot, csökkentheti a versengést és optimalizálhatja a teljesítményt.

A data lake particionálásakor győződjön meg a beállításról:

Nem veszélyezteti a biztonságot
Egyértelmű elkülönítéssel rendelkezik, és igazodik az adatengedélyezési modellhez
Jól illeszkedik az adatbetöltési folyamathoz
Jól definiált elérési út az optimális adathozzáféréshez
Támogatja a felügyeleti és karbantartási feladatokat

Általános eljárások

Az adatparticionálás tervezésének általános eljárásai a következők:

Összpontosítson a biztonsági következményekre korán, és tervezzen adatpartíciókat az engedélyezéssel együtt.
Érdemes lehet engedélyezni az adatredundanciát a biztonságért cserébe.- Adjon meg egy elnevezési konvenciót, és tartsa be azt.
Több mappát is beágyazhat, de mindig konzisztensen tarthatja őket.
Adjon meg egy időelemet a mappastruktúrákban és a fájlnevekben.
Ne kezdje el a mappastruktúrát dátumpartíciókkal. Jobb, ha a dátumokat a mappa alsó szintjén tartja.
Ne egyesítse a vegyes fájlformátumokat és a különböző adattermékeket egyetlen mappastruktúrában.

Tipp.

A mappastruktúráknak particionálási stratégiákkal kell rendelkezniük, amelyek optimalizálhatják a hozzáférési mintákat és a megfelelő fájlméreteket. A válogatott zónákban tervezze meg a struktúrát az optimális lekérés alapján, legyen óvatos egy magas számosságú partíciókulcs kiválasztásával, ami több particionáláshoz vezet, ami pedig a fájlméretek optimálisnál rosszabb méretéhez vezet.

A Data Lake-zónákkal kapcsolatos további információkért lásd a Data Lake-zónákat és -tárolókat

Megfelelőségi támogatás

A Delta Lake egy tranzakciós réteget ad hozzá, amely strukturált adatkezelést biztosít a data lake-en. Ez a kiegészítés jelentősen leegyszerűsítheti és felgyorsíthatja a személyes adatok (más néven "személyes adatok") megkeresését és eltávolítását fogyasztói kérésre. A tranzakciós réteg támogatja az olyan műveleteket, mint a DELETE, az UPDATE és a MERGE. További információ: Ajánlott eljárások: GDPR-megfelelőség a Delta Lake használatával.

Összesítés

Alkalmazza a cikkben felsorolt adatszabványokat a platformra. Kezdje a Delta Lake formátummal, majd kezdjen el folyamatokat hozzáadni az optimalizáláshoz és a megfelelőséghez. Dönthet úgy, hogy létrehoz egy szolgáltatást, amely ütemezés szerint futtatja az optimalizálási útvonalak egy részét, vagy létrehozhat egy megfelelőségi szolgáltatást, amely eltávolítja a személyes adatokat.

További lépések

Common Data Model > Iparági adatmodellek

Megosztás a következőn keresztül: