Začínáme s Delta Lake

Dokončeno

Delta Lake je opensourcová vrstva úložiště, která přidává sémantiku relační databáze ke zpracování datového jezera založeného na Sparku. Delta Lake se podporuje ve fondech Spark Azure Synapse Analytics pro kód PySpark, Scala a .NET.

Mezi výhody používání Delta Lake v Azure Databricks patří:

  • Relační tabulky, které podporují dotazování a úpravy dat. S Delta Lake můžete ukládat data do tabulek, které podporují operace CRUD (vytváření, čtení, aktualizace a odstraňování). Jinými slovy, můžete vybrat, vložit, aktualizovat a odstranit řádky dat stejným způsobem jako v relačním databázovém systému.
  • Podpora transakcí ACID. Relační databáze jsou navrženy tak, aby podporovaly úpravy transakčních dat, které poskytují atomicitu (transakce jsou dokončeny jako jedna jednotka práce), konzistence (transakce opouštějí databázi v konzistentním stavu), izolaci (transakce v procesu nemohou vzájemně narušovat) a stálost (po dokončení transakce, provedené změny se zachovají). Delta Lake přináší do Sparku stejnou transakční podporu implementací transakčního protokolu a vynucením serializovatelné izolace pro souběžné operace.
  • Správa verzí dat a doba trvání Vzhledem k tomu, že všechny transakce jsou protokolovány v transakčním protokolu, můžete sledovat více verzí každého řádku tabulky a dokonce použít funkci časového cestování k načtení předchozí verze řádku v dotazu.
  • Podpora dávkových a streamovaných dat Většina relačních databází sice obsahuje tabulky, které ukládají statická data, ale Spark zahrnuje nativní podporu streamování dat prostřednictvím rozhraní API strukturovaného streamování Sparku. Tabulky Delta Lake je možné použít jako jímky (cíle) i zdroje pro streamovaná data.
  • Standardní formáty a interoperabilita. Podkladová data pro tabulky Delta Lake se ukládají ve formátu Parquet, který se běžně používá v kanálech příjmu dat Data Lake.

Tip

Další informace o Delta Lake v Azure Databricks najdete v příručce Delta Lake v dokumentaci k Azure Databricks.