Mi az a Delta Lake?
A Delta Lake egy nyílt forráskódú tárolási réteg, amely ACID-tranzakciókat (atomitást, konzisztenciát, elkülönítést és tartósságot) hoz létre az Apache Spark és a big data számítási feladatok számára.
Az Azure Synapse-hez mellékelt Delta Lake jelenlegi verziója nyelvi támogatással rendelkezik a Scala, a PySpark és a .NET számára, és kompatibilis a Linux Foundation Delta Lake szolgáltatással. A lap alján található hivatkozások részletesebb példákra és dokumentációkra mutatnak. További információt a Delta Tables bemutatása videóból tudhat meg.
Legfontosabb funkciók
Funkció | Leírás |
---|---|
ACID-tranzakciók | A data lake-ek általában több folyamaton és folyamaton keresztül vannak feltöltve, amelyek közül néhány egyszerre ír adatokat olvasással. A Delta Lake és a tranzakciók hozzáadása előtt az adatmérnököknek manuális hibalehetőséget kellett elvégeznie az adatintegritás biztosítása érdekében. A Delta Lake ismerős ACID-tranzakciókat hoz létre a data lake-ekben. Szerializálhatóságot biztosít, a legerősebb elkülönítési szintet. További információ a Delta Lake-be való búvárkodásról: A tranzakciónapló kicsomagolása. |
Méretezhető metaadatok kezelése | A big data-ban még maga a metaadatok is lehetnek "big data". A Delta Lake ugyanúgy kezeli a metaadatokat, mint az adatokat, kihasználva a Spark elosztott feldolgozási teljesítményét az összes metaadat kezelésére. Ennek eredményeképpen a Delta Lake könnyedén kezelheti a petabájt méretű táblákat több milliárd partícióval és fájllal. |
Time Travel (adatverzió) | A tranzakciók egyik legfontosabb funkciója, hogy "visszavonja" a módosításokat, vagy visszaléphet egy korábbi verzióra. A Delta Lake pillanatképeket biztosít az adatokról, amelyek lehetővé teszik az adatok korábbi verzióira való visszaállítást naplózáshoz, visszaállításhoz vagy kísérletek reprodukálásához. További információ a Delta Lake Time Travel nagy méretű Data Lake-ekhez való bevezetéséről. |
Formátum megnyitása | Az Apache Parquet a Delta Lake alapformátuma, amely lehetővé teszi a formátumon natív, hatékony tömörítési és kódolási sémák kihasználását. |
Egyesített Kötegelt és streamelési forrás és fogadó | A Delta Lake egyik táblája egyszerre kötegelt tábla, valamint streamelési forrás és fogadó is. Az adatbetöltés streamelése, a kötegelt előzmény-visszatöltés és az interaktív lekérdezések mind egyszerűen kijönnek a dobozból. |
Sémaérvényesítés | A sémakényszerítés segít biztosítani, hogy az adattípusok helyesek legyenek, és a szükséges oszlopok meg legyenek jelen, megakadályozva, hogy a hibás adatok ne okozzák az adatok inkonzisztenciaét. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution |
Sémafejlődés | A Delta Lake lehetővé teszi, hogy a migrálásI DDL írása nélkül automatikusan alkalmazható táblázatsémát módosítsa. További információ: Búvárkodás a Delta Lake-ben: Sémaérvényesítés > Evolution |
Naplózási előzmények | A Delta Lake tranzakciónaplója az adatok minden módosításával kapcsolatos adatokat rögzít, amelyek a módosítások teljes naplózását teszik lehetővé. |
Frissítések és törlések | A Delta Lake számos funkcióhoz támogatja a Scala/ Java/ Python és SQL API-kat. Az egyesítési, frissítési és törlési műveletek támogatása segít megfelelni a megfelelőségi követelményeknek. További információ: A Delta Lake 0.6.1 kiadás bejelentése, a Delta Lake 0.7 kiadásának bejelentése, valamint a Python API-kat használó Delta Lake-táblák egyszerű, megbízható upserts és törlései, amelyek kódrészleteket tartalmaznak a DML-parancsok egyesítéséhez, frissítéséhez és törléséhez. |
100%-os kompatibilitás az Apache Spark API-val | A fejlesztők minimális módosítással használhatják a Delta Lake-t a meglévő adatfolyamokkal, mivel teljes mértékben kompatibilisek a meglévő Spark-implementációkkal. |
A teljes dokumentációt a Delta Lake dokumentációs oldalán találja.
További információ: Delta Lake Project.