Megosztás a következőn keresztül:


Mik az Azure Databricks összes Delta-dolga ?

Ez a cikk az Azure Databricksben közösen védjegyzett Delta technológiáinak bemutatása. A Delta a Delta Lake nyílt forráskód projekthez kapcsolódó vagy abban lévő technológiákra vonatkozik.

Ez a cikk a következő válaszokat választja:

  • Mik az Azure Databricks Delta-technológiái ?
  • Mit csinálnak? Vagy mire használják őket?
  • Hogyan kapcsolódnak egymáshoz, és miben különböznek egymástól?

Mire használják a Delta-dolgokat?

A Delta egy olyan kifejezés, amelyet a Delta Lake vezet be, amely az adatok és táblák Databricks lakehouse-ban való tárolásának alapja. A Delta Lake egységes adatkezelési rendszerként lett kitalálva a tranzakciós valós idejű és kötegelt big data kezelésére, a Parquet-adatfájlok fájlalapú tranzakciónaplóval való kibővítésével az ACID-tranzakciókhoz és a skálázható metaadatok kezeléséhez.

Delta Lake: Operációs rendszer adatkezelése a lakehouse-hoz

A Delta Lake egy nyílt forráskódú tárolási réteg, amely a felhőben (AWS S3, Azure Storage és GCS) tárolt adatokon felül egy tranzakciós tárolási réteg hozzáadásával biztosítja a megbízhatóságot az adattavakban. Lehetővé teszi az ACID-tranzakciókat, az adatok verziószámozását és a visszaállítási képességeket. Lehetővé teszi a kötegelt és a streamelési adatok egységes kezelését.

A Delta-táblák erre a tárolási rétegre épülnek, és tábla absztrakciót biztosítanak, így az SQL és a DataFrame API használatával könnyen kezelhetők nagy léptékű strukturált adatok.

Delta-táblák: Alapértelmezett adattábla-architektúra

A Delta-tábla az Azure Databricks alapértelmezett adattábla-formátuma, és a Delta Lake nyílt forráskód adat-keretrendszer egyik funkciója. A deltatáblákat általában adattavakhoz használják, ahol az adatok streamelés útján vagy nagy kötegekben vannak betöltve.

Lásd:

Delta Live Tables: Adatfolyamok

A Delta Live Tables számos Delta-tábla közötti adatáramlást felügyel, így egyszerűbbé teszi az adatmérnökök munkáját az ETL-fejlesztés és -kezelés terén. A folyamat a Delta Live Tables fő végrehajtási egysége. A Delta Live Tables deklaratív folyamatfejlesztést, jobb adatmeg megbízhatóságot és felhőalapú éles műveleteket kínál. A felhasználók kötegelt és streamelési műveleteket is végrehajthatnak ugyanazon a táblán, és az adatok azonnal elérhetők a lekérdezéshez. Ön határozza meg az adatokon végrehajtandó átalakításokat, a Delta Live Tables pedig a feladatvezénylést, a fürtkezelést, a monitorozást, az adatminőséget és a hibakezelést kezeli. A Delta Live Tables továbbfejlesztett automatikus skálázása képes kezelni a tüskés és kiszámíthatatlan streamelési számítási feladatokat.

Tekintse meg a Delta Live Tables oktatóanyagát.

Delta-táblák és delta élő táblák

A Delta tábla segítségével táblákban tárolhatja az adatokat, míg a Delta Live Tables lehetővé teszi, hogy deklaratív módon írja le, hogyan áramlik az adat a táblák között. A Delta Live Tables egy deklaratív keretrendszer, amely számos deltatáblát kezel létrehozásukkal és naprakészen tartásával. Röviden: a Delta-táblák egy adattábla-architektúra, míg a Delta Live Tables egy adatfolyam-keretrendszer.

Delta: Nyílt forráskódú vagy védett?

Az Azure Databricks platform egyik erőssége, hogy nem zárja be az ügyfeleket a védett eszközökbe: A technológia nagy részét nyílt forráskód projektek hajtják, amelyekhez az Azure Databricks hozzájárul.

A Delta OSS-projektek példák:

A Delta Live Tables egy saját fejlesztésű keretrendszer az Azure Databricksben.

Mik az Azure Databricks további Delta-dolgai ?

Az alábbiakban a Delta nevet viselő egyéb funkciók leírása látható.

Delta-megosztás

A biztonságos adatmegosztás nyílt szabványa, a Delta Sharing lehetővé teszi a szervezetek közötti adatmegosztást a számítási platformtól függetlenül.

Delta motor

A Databricksben található Delta Lake nyílt forráskód technológiát használó big data lekérdezésoptimalizálója. A Delta motor úgy optimalizálja a Spark SQL, a Databricks SQL és a DataFrame műveletek teljesítményét, hogy a számításokat az adatokhoz küldi.

Delta Lake tranzakciónapló (AKA DeltaLogs)

Az igazság egyetlen forrása, amely nyomon követi a felhasználók által a táblázatban végrehajtott összes módosítást, és azt a mechanizmust, amelyen keresztül a Delta Lake garantálja az atomitást. Tekintse meg a Delta tranzakciónapló protokollt a GitHubon.

A tranzakciónapló kulcsfontosságú a Delta Lake megértéséhez, mivel ez a közös szál, amely számos legfontosabb funkcióját végigfuttatja:

  • ACID-tranzakciók
  • Méretezhető metaadatok kezelése
  • Időutazás
  • És még sok más.