Mik az Azure Databricks összes Delta-dolga ?
Ez a cikk az Azure Databricksben közösen védjegyzett Delta technológiáinak bemutatása. A Delta a Delta Lake nyílt forráskód projekthez kapcsolódó vagy abban lévő technológiákra vonatkozik.
Ez a cikk a következő válaszokat választja:
- Mik az Azure Databricks Delta-technológiái ?
- Mit csinálnak? Vagy mire használják őket?
- Hogyan kapcsolódnak egymáshoz, és miben különböznek egymástól?
Mire használják a Delta-dolgokat?
A Delta egy olyan kifejezés, amelyet a Delta Lake vezet be, amely az adatok és táblák Databricks lakehouse-ban való tárolásának alapja. A Delta Lake egységes adatkezelési rendszerként lett kitalálva a tranzakciós valós idejű és kötegelt big data kezelésére, a Parquet-adatfájlok fájlalapú tranzakciónaplóval való kibővítésével az ACID-tranzakciókhoz és a skálázható metaadatok kezeléséhez.
Delta Lake: Operációs rendszer adatkezelése a lakehouse-hoz
A Delta Lake egy nyílt forráskódú tárolási réteg, amely a felhőben (AWS S3, Azure Storage és GCS) tárolt adatokon felül egy tranzakciós tárolási réteg hozzáadásával biztosítja a megbízhatóságot az adattavakban. Lehetővé teszi az ACID-tranzakciókat, az adatok verziószámozását és a visszaállítási képességeket. Lehetővé teszi a kötegelt és a streamelési adatok egységes kezelését.
A Delta-táblák erre a tárolási rétegre épülnek, és tábla absztrakciót biztosítanak, így az SQL és a DataFrame API használatával könnyen kezelhetők nagy léptékű strukturált adatok.
Delta-táblák: Alapértelmezett adattábla-architektúra
A Delta-tábla az Azure Databricks alapértelmezett adattábla-formátuma, és a Delta Lake nyílt forráskód adat-keretrendszer egyik funkciója. A deltatáblákat általában adattavakhoz használják, ahol az adatok streamelés útján vagy nagy kötegekben vannak betöltve.
Lásd:
- Delta Lake rövid útmutató: Táblázat létrehozása
- Delta Lake-táblák frissítése és módosítása.
- DeltaTable osztály: Fő osztály a Delta-táblákkal való programozott interakcióhoz.
Delta Live Tables: Adatfolyamok
A Delta Live Tables számos Delta-tábla közötti adatáramlást felügyel, így egyszerűbbé teszi az adatmérnökök munkáját az ETL-fejlesztés és -kezelés terén. A folyamat a Delta Live Tables fő végrehajtási egysége. A Delta Live Tables deklaratív folyamatfejlesztést, jobb adatmeg megbízhatóságot és felhőalapú éles műveleteket kínál. A felhasználók kötegelt és streamelési műveleteket is végrehajthatnak ugyanazon a táblán, és az adatok azonnal elérhetők a lekérdezéshez. Ön határozza meg az adatokon végrehajtandó átalakításokat, a Delta Live Tables pedig a feladatvezénylést, a fürtkezelést, a monitorozást, az adatminőséget és a hibakezelést kezeli. A Delta Live Tables továbbfejlesztett automatikus skálázása képes kezelni a tüskés és kiszámíthatatlan streamelési számítási feladatokat.
Tekintse meg a Delta Live Tables oktatóanyagát.
Delta-táblák és delta élő táblák
A Delta tábla segítségével táblákban tárolhatja az adatokat, míg a Delta Live Tables lehetővé teszi, hogy deklaratív módon írja le, hogyan áramlik az adat a táblák között. A Delta Live Tables egy deklaratív keretrendszer, amely számos deltatáblát kezel létrehozásukkal és naprakészen tartásával. Röviden: a Delta-táblák egy adattábla-architektúra, míg a Delta Live Tables egy adatfolyam-keretrendszer.
Delta: Nyílt forráskódú vagy védett?
Az Azure Databricks platform egyik erőssége, hogy nem zárja be az ügyfeleket a védett eszközökbe: A technológia nagy részét nyílt forráskód projektek hajtják, amelyekhez az Azure Databricks hozzájárul.
A Delta OSS-projektek példák:
- Delta Lake-projekt: Nyílt forráskódú tároló egy tóházhoz.
- Delta Sharing protocol: Nyílt protokoll a biztonságos adatmegosztáshoz.
A Delta Live Tables egy saját fejlesztésű keretrendszer az Azure Databricksben.
Mik az Azure Databricks további Delta-dolgai ?
Az alábbiakban a Delta nevet viselő egyéb funkciók leírása látható.
Delta-megosztás
A biztonságos adatmegosztás nyílt szabványa, a Delta Sharing lehetővé teszi a szervezetek közötti adatmegosztást a számítási platformtól függetlenül.
Delta motor
A Databricksben található Delta Lake nyílt forráskód technológiát használó big data lekérdezésoptimalizálója. A Delta motor úgy optimalizálja a Spark SQL, a Databricks SQL és a DataFrame műveletek teljesítményét, hogy a számításokat az adatokhoz küldi.
Delta Lake tranzakciónapló (AKA DeltaLogs)
Az igazság egyetlen forrása, amely nyomon követi a felhasználók által a táblázatban végrehajtott összes módosítást, és azt a mechanizmust, amelyen keresztül a Delta Lake garantálja az atomitást. Tekintse meg a Delta tranzakciónapló protokollt a GitHubon.
A tranzakciónapló kulcsfontosságú a Delta Lake megértéséhez, mivel ez a közös szál, amely számos legfontosabb funkcióját végigfuttatja:
- ACID-tranzakciók
- Méretezhető metaadatok kezelése
- Időutazás
- És még sok más.