Was ist Delta Lake?
Delta Lake ist eine Open-Source-Speicherebene, die ACID-Transaktionen (Atomizität, Konsistenz, Isolation und Dauerhaftigkeit) in Apache Spark und Big Data-Workloads einführt.
Die aktuelle Version von Delta Lake, die in Azure Synapse enthalten ist, bietet Sprachunterstützung für Scala, PySpark und .NET und ist mit Linux Foundation Delta Lake kompatibel. Unten auf der Seite finden Sie Links zu ausführlicheren Beispielen und Dokumentationen. Weitere Informationen finden Sie im Video „Einführung in Delta-Tabellen“.
Wichtige Features
Funktion | BESCHREIBUNG |
---|---|
ACID-Transaktionen | Data Lakes werden in der Regel über mehrere Prozesse und Pipelines aufgefüllt, von denen einige Daten gleichzeitig mit Lesevorgängen schreiben. Vor Delta Lake und dem Hinzufügen von Transaktionen mussten Data Engineers einen fehleranfälligen manuellen Prozess durchlaufen, um die Datenintegrität sicherzustellen. Delta Lake sorgt für vertraute ACID-Transaktionen für Data Lakes. Es bietet Serialisierbarkeit, die stärkste Isolationsstufe. Weitere Informationen finden Sie unter Einstieg in Delta Lake: Entpacken des Transaktionsprotokolls. |
Skalierbare Metadatenverarbeitung | Bei Big Data-Lösungen können die Metadaten selbst „Big Data“ sein. Delta Lake behandelt Metadaten genauso wie Daten und nutzt die verteilte Verarbeitung von Spark, um alle Metadaten zu verarbeiten. Folglich kann Delta Lake Tabellen in der Größenordnung von Petabytes mit Milliarden von Partitionen und Dateien problemlos verarbeiten. |
Time Travel (Datenversionsverwaltung) | Die Möglichkeit, eine Änderung „rückgängig zu machen“ oder zu einer früheren Version zurückzukehren, ist eine der wichtigsten Funktionen von Transaktionen. Delta Lake stellt Momentaufnahmen von Daten bereit, mit denen Sie auf frühere Versionen von Daten für Audits, Rollbacks oder zur Reproduktion von Experimenten zurückwechseln können. Weitere Informationen finden Sie unter Einführung von Delta Lake Time Travel für große Data Lakes. |
Offenes Format | Apache Parquet ist das Baselineformat für Delta Lake, mit dem Sie die effizienten Komprimierungs- und Codierungsschemas nutzen können, die nativ für das Format sind. |
Einheitliche Batch-und Streamingquelle und -senke | Eine Tabelle in Delta Lake ist sowohl eine Batchtabelle als auch eine Streamingquelle und -senke. Die Erfassung von Streamingdaten, historischer Batchvergleich und interaktive Abfragen funktionieren alle standardmäßig. |
Schemaerzwingung | Mithilfe der Schemaerzwingung können Sie sicherstellen, dass die Datentypen korrekt und erforderliche Spalten vorhanden sind, wodurch verhindert wird, dass ungültige Daten Dateninkonsistenzen verursachen. Weitere Informationen finden Sie unter Einstieg in Delta Lake: Schemaerzwingung und -entwicklung |
Schemaentwicklung | Delta Lake ermöglicht es Ihnen, Änderungen an einem Tabellenschema vorzunehmen, das automatisch angewendet werden kann, ohne dass eine Migrations-DDL geschrieben werden muss. Weitere Informationen finden Sie unter Einstieg in Delta Lake: Schemaerzwingung und -entwicklung |
Überwachungsverlauf | Im Delta Lake-Transaktionsprotokoll werden Details zu jeder an Daten vorgenommenen Änderung aufgezeichnet, wodurch Sie einen vollständigen Überwachungspfad der Änderungen erhalten. |
Aktualisierungen und Löschungen | Delta Lake unterstützt Scala-/Java-/Python- und SQL-APIs für eine Vielzahl von Funktionen. Durch die Unterstützung von Zusammenführungs-, Aktualisierungs- und Löschvorgängen können Sie Complianceanforderungen erfüllen. Weitere Informationen finden Sie unter Ankündigung von Delta Lake 0.6.1 Release, Ankündigung von Delta Lake 0.7 Release und Einfache, zuverlässige Upserts und Löschungen in Delta Lake-Tabellen mithilfe von Python-APIs, was auch Codeausschnitte für die DML-Befehle „merge“, „update“ und „delete“ umfasst. |
100 % kompatibel mit der Apache Spark-API | Entwickler können Delta Lake mit ihren vorhandenen Datenpipelines mit minimalen Änderungen verwenden, da es mit vorhandenen Spark-Implementierungen vollständig kompatibel ist. |
Eine vollständige Dokumentation finden Sie auf der Delta Lake-Dokumentationsseite.
Weitere Informationen finden Sie unter Delta Lake-Projekt.