Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln är en introduktion till de tekniker som är gemensamt märkta med Delta på Azure Databricks. Delta avser tekniker som är relaterade till eller i Delta Lake öppen källkod-projektet.
Den här artikeln besvarar:
- Vilka är Delta-teknikerna i Azure Databricks?
- Vad gör de? Eller vad används de till?
- Hur är de relaterade till och skilda från varandra?
Vad används Delta-sakerna till?
Delta är en term som introducerades med Delta Lake, grunden för lagring av data och tabeller i Databricks lakehouse. Delta Lake utformades som ett enhetligt datahanteringssystem för hantering av transaktionella realtids- och batch-stordata genom att utöka Parquet-datafiler med en filbaserad transaktionslogg för ACID-transaktioner och skalbar metadatahantering.
Delta Lake: OS-datahantering för lakehouse
Delta Lake är ett lagringslager med öppen källkod som ger tillförlitlighet till datasjöar genom att lägga till ett transaktionellt lagringslager ovanpå data som lagras i molnlagring (på AWS S3, Azure Storage och GCS). Det möjliggör ACID-transaktioner, dataversionshantering och återställningsfunktioner. Det gör att du kan hantera både batch- och strömmande data på ett enhetligt sätt.
Deltatabeller bygger på det här lagringslagret och ger en tabellabstraktion, vilket gör det enkelt att arbeta med storskaliga strukturerade data med SQL och DataFrame-API:et.
Deltatabeller: Standardarkitektur för datatabeller
Delta-tabellen är standardformatet för datatabeller i Azure Databricks och är en funktion i dataramverket med öppen källkod i Delta Lake. Deltatabeller används vanligtvis för datasjöar, där data matas in via direktuppspelning eller i stora batchar.
Se:
- snabbstart för Delta Lake: Skapa en tabell
- Uppdatera och ändra Delta Lake-tabeller.
- DeltaTable-klass: Huvudklass för att interagera programmatiskt med Delta-tabeller.
Deklarativa datapipelines för Lakeflow: Datapipelines
Deklarativa pipelines i Lakeflow hanterar dataflödet mellan många Delta-tabeller, vilket förenklar datateknikers arbete med utveckling och hantering av ETL. Pipeline är huvudkörningsenheten för Lakeflow Deklarativa Pipelines. Lakeflow Declarative Pipelines erbjuder deklarativ utveckling av pipelines, förbättrad datatillförlitlighet och molnbaserade produktionsverksamheter. Användare kan utföra både batch- och strömningsåtgärder i samma tabell och data är omedelbart tillgängliga för frågor. Du definierar de omvandlingar som ska utföras på dina data och Lakeflow Deklarativa pipelines hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. Förbättrad autoskalning i Lakeflow deklarativa pipelines kan hantera strömmande arbetsbelastningar som är spikiga och oförutsägbara.
Se självstudien Lakeflow Declarative Pipelines.
Deltatabeller jämfört med Lakeflow Deklarativa Pipelines
Deltatabell är ett sätt att lagra data i tabeller, medan Lakeflow deklarativa pipelines låter dig deklarativt beskriva hur data flödar mellan dessa tabeller. Lakeflow deklarativa pipelines är ett deklarativt ramverk som hanterar många deltatabeller genom att skapa och hålla dem uppdaterade. Kort sagt är Delta-tabeller en datatabellsarkitektur medan Lakeflow deklarativa pipelines är ett ramverk för datapipelines.
Delta: Öppen källkod eller upphovsrättsskyddad?
En styrka med Azure Databricks-plattformen är att den inte låser kunderna till proprietära verktyg: Mycket av tekniken drivs av projekt med öppen källkod, vilket Azure Databricks bidrar till.
Delta OSS-projekten är exempel:
- Delta Lake-projekt: Lagring med öppen källkod för ett sjöhus.
- Deltadelningsprotokoll: Öppna protokollet för säker datadelning.
Lakeflow Deklarativa Pipelines är ett proprietärt plattform i Azure Databricks.
Vad är de andra Delta-sakerna i Azure Databricks?
Nedan visas beskrivningar av andra funktioner som innehåller Delta i deras namn.
Deltadelning
Deltadelning är en öppen standard för säker datadelning och möjliggör datadelning mellan organisationer oavsett beräkningsplattform.
Deltamotor
En frågeoptimerare för stordata som använder Delta Lake öppen källkod teknik som ingår i Databricks. Deltamotorn optimerar prestandan för Spark SQL, Databricks SQL och DataFrame-operationer genom att flytta beräkningen närmare datan.
Delta Lake-transaktionslogg (även kallad DeltaLogs)
En enda sanningskälla som spårar alla ändringar som användare gör i tabellen och den mekanism genom vilken Delta Lake garanterar atomicitet. Se deltatransaktionsloggprotokollet på GitHub.
Transaktionsloggen är nyckeln till att förstå Delta Lake, eftersom det är den röda tråden som går igenom många av dess viktigaste funktioner:
- ACID-transaktioner
- Skalbar metadatahantering
- Tidsresa
- Och mer.