Mi az a Delta Lake?

A Delta Lake egy nyílt forráskódú tárolási réteg, amely ACID-tranzakciókat (atomitást, konzisztenciát, elkülönítést és tartósságot) hoz létre az Apache Spark és a big data számítási feladatok számára.

Az Azure Synapse-hez mellékelt Delta Lake jelenlegi verziója nyelvi támogatással rendelkezik a Scala, a PySpark és a .NET számára, és kompatibilis a Linux Foundation Delta Lake szolgáltatással. A lap alján található hivatkozások részletesebb példákra és dokumentációkra mutatnak. További információt a Delta Tables bemutatása videóból tudhat meg.

Legfontosabb funkciók

Funkció Leírás
ACID-tranzakciók A data lake-ek általában több folyamaton és folyamaton keresztül vannak feltöltve, amelyek közül néhány egyszerre ír adatokat olvasással. A Delta Lake és a tranzakciók hozzáadása előtt az adatmérnököknek manuális hibalehetőséget kellett elvégeznie az adatintegritás biztosítása érdekében. A Delta Lake ismerős ACID-tranzakciókat hoz létre a data lake-ekben. Szerializálhatóságot biztosít, a legerősebb elkülönítési szintet. További információ a Delta Lake-be való búvárkodásról: A tranzakciónapló kicsomagolása.
Méretezhető metaadatok kezelése A big data-ban még maga a metaadatok is lehetnek "big data". A Delta Lake ugyanúgy kezeli a metaadatokat, mint az adatokat, kihasználva a Spark elosztott feldolgozási teljesítményét az összes metaadat kezelésére. Ennek eredményeképpen a Delta Lake könnyedén kezelheti a petabájt méretű táblákat több milliárd partícióval és fájllal.
Time Travel (adatverzió) A tranzakciók egyik legfontosabb funkciója, hogy "visszavonja" a módosításokat, vagy visszaléphet egy korábbi verzióra. A Delta Lake pillanatképeket biztosít az adatokról, amelyek lehetővé teszik az adatok korábbi verzióira való visszaállítást naplózáshoz, visszaállításhoz vagy kísérletek reprodukálásához. További információ a Delta Lake Time Travel nagy méretű Data Lake-ekhez való bevezetéséről.
Formátum megnyitása Az Apache Parquet a Delta Lake alapformátuma, amely lehetővé teszi a formátumon natív, hatékony tömörítési és kódolási sémák kihasználását.
Egyesített Kötegelt és streamelési forrás és fogadó A Delta Lake egyik táblája egyszerre kötegelt tábla, valamint streamelési forrás és fogadó is. Az adatbetöltés streamelése, a kötegelt előzmény-visszatöltés és az interaktív lekérdezések mind egyszerűen kijönnek a dobozból.
Sémaérvényesítés A sémakényszerítés segít biztosítani, hogy az adattípusok helyesek legyenek, és a szükséges oszlopok meg legyenek jelen, megakadályozva, hogy a hibás adatok ne okozzák az adatok inkonzisztenciaét. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution
Sémafejlődés A Delta Lake lehetővé teszi, hogy a migrálásI DDL írása nélkül automatikusan alkalmazható táblázatsémát módosítsa. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution
Naplózási előzmények A Delta Lake tranzakciónaplója az adatok minden módosításával kapcsolatos adatokat rögzít, amelyek a módosítások teljes naplózását teszik lehetővé.
Frissítések és törlések A Delta Lake számos funkcióhoz támogatja a Scala/ Java/ Python és SQL API-kat. Az egyesítési, frissítési és törlési műveletek támogatása segít megfelelni a megfelelőségi követelményeknek. További információ: A Delta Lake 0.6.1 kiadás bejelentése, a Delta Lake 0.7 kiadásának bejelentése, valamint a Python API-kat használó Delta Lake-táblák egyszerű, megbízható upserts és törlései, amelyek kódrészleteket tartalmaznak a DML-parancsok egyesítéséhez, frissítéséhez és törléséhez.
100%-os kompatibilitás az Apache Spark API-val A fejlesztők minimális módosítással használhatják a Delta Lake-t a meglévő adatfolyamokkal, mivel teljes mértékben kompatibilisek a meglévő Spark-implementációkkal.

A teljes dokumentációt a Delta Lake dokumentációs oldalán találja.

További információ: Delta Lake Project.

További lépések