Wat zijn alle Delta-dingen in Azure Databricks?

Dit artikel is een inleiding tot de technologieën die gezamenlijk delta hebben gemerkt in Azure Databricks. Delta verwijst naar technologieën met betrekking tot of in het opensource-project van Delta Lake.

In dit artikel wordt het volgende beantwoord:

  • Wat zijn de Delta-technologieën in Azure Databricks?
  • Wat doen ze? Of waar worden ze voor gebruikt?
  • Hoe zijn ze gerelateerd aan en onderscheiden van elkaar?

Waar worden de Delta-dingen voor gebruikt?

Delta is een term die is geïntroduceerd met Delta Lake, de basis voor het opslaan van gegevens en tabellen in databricks lakehouse. Delta Lake is ontworpen als een geïntegreerd systeem voor gegevensbeheer voor het verwerken van transactionele realtime en batchgewijze big data, door Parquet-gegevensbestanden uit te breiden met een transactielogboek op basis van bestanden voor ACID-transacties en schaalbare verwerking van metagegevens.

Delta Lake: besturingssysteemgegevensbeheer voor het lakehouse

Delta Lake is een opensource-opslaglaag die betrouwbaarheid biedt aan data lakes door een transactionele opslaglaag toe te voegen boven op gegevens die zijn opgeslagen in cloudopslag (op AWS S3, Azure Storage en GCS). Het maakt ACID-transacties, gegevensversiebeheer en terugdraaimogelijkheden mogelijk. Hiermee kunt u zowel batch- als streaminggegevens op een uniforme manier verwerken.

Delta-tabellen zijn gebouwd op deze opslaglaag en bieden een tabelabstractie, zodat u eenvoudig kunt werken met grootschalige gestructureerde gegevens met behulp van SQL en de DataFrame-API.

Delta-tabellen: Standaardarchitectuur voor gegevenstabellen

Delta-tabel is de standaardindeling voor gegevenstabellen in Azure Databricks en is een functie van het opensource-gegevensframework van Delta Lake. Delta-tabellen worden doorgaans gebruikt voor data lakes, waarbij gegevens worden opgenomen via streaming of in grote batches.

Zie:

Delta Live Tables: Gegevenspijplijnen

Delta Live Tables beheert de gegevensstroom tussen veel Delta-tabellen, waardoor het werk van data engineers op ETL-ontwikkeling en -beheer wordt vereenvoudigd. De pijplijn is de belangrijkste uitvoeringseenheid voor Delta Live Tables. Delta Live Tables biedt declaratieve pijplijnontwikkeling, verbeterde betrouwbaarheid van gegevens en productiebewerkingen in de cloud. Gebruikers kunnen zowel batch- als streamingbewerkingen uitvoeren in dezelfde tabel en de gegevens zijn onmiddellijk beschikbaar voor het uitvoeren van query's. U definieert de transformaties die moeten worden uitgevoerd op uw gegevens en Delta Live Tables beheert taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling. Verbeterde automatische schaalaanpassing van Delta Live-tabellen kan streamingworkloads verwerken die stekelig en onvoorspelbaar zijn.

Zie de zelfstudie Over Delta Live Tables.

Delta-tabellen versus Delta Live Tables

Delta-tabel is een manier om gegevens op te slaan in tabellen, terwijl u met Delta Live Tables kunt beschrijven hoe gegevens tussen deze tabellen declaratief stromen. Delta Live Tables is een declaratief framework dat veel deltatabellen beheert door ze te maken en up-to-date te houden. Kortom, Delta-tabellen is een architectuur voor gegevenstabellen, terwijl Delta Live Tables een framework voor gegevenspijplijnen is.

Delta: Open source of eigendom?

Een kracht van het Azure Databricks-platform is dat klanten niet worden vergrendeld in eigen hulpprogramma's: veel van de technologie wordt mogelijk gemaakt door opensource-projecten, waaraan Azure Databricks bijdraagt.

De Delta OSS-projecten zijn voorbeelden:

Delta Live Tables is een eigen framework in Azure Databricks.

Wat zijn de andere Delta-dingen in Azure Databricks?

Hieronder vindt u beschrijvingen van andere functies die Delta in hun naam bevatten.

Delta Delen

Een open standaard voor veilig delen van gegevens, delta delen maakt het delen van gegevens mogelijk tussen organisaties, ongeacht hun rekenplatform.

Delta-engine

Een optimalisatiefunctie voor query's voor big data die gebruikmaakt van Open Source-technologie van Delta Lake die is opgenomen in Databricks. Delta Engine optimaliseert de prestaties van Spark SQL-, Databricks SQL- en DataFrame-bewerkingen door berekeningen naar de gegevens te pushen.

Delta Lake-transactielogboek (AKA DeltaLogs)

Eén bron van waarheid die alle wijzigingen bijhoudt die gebruikers aanbrengen in de tabel en het mechanisme waarmee Delta Lake atomiciteit garandeert. Zie het Delta-transactielogboekprotocol op GitHub.

Het transactielogboek is essentieel voor het begrijpen van Delta Lake, omdat het de algemene thread is die door veel van de belangrijkste functies wordt uitgevoerd:

  • ACID-transacties
  • Schaalbare verwerking van metagegevens
  • Tijdreizen
  • En nog veel meer.