Perché Delta Lake?

Articolo
05/15/2024

Delta Lake è un livello di archiviazione open source che consente di usare transazioni ACID (Atomicity, Consistency, Isolation And Durability, ovvero atomicità, coerenza, isolamento e durabilità) in Apache Spark e nei carichi di lavoro di Big Data.

La versione corrente di Delta Lake inclusa in Azure Synapse comprende il supporto del linguaggio per Scala, PySpark e .NET, ed è compatibile con Linux Foundation Delta Lake. Nella parte inferiore della pagina sono disponibili collegamenti ad esempi e documentazione più dettagliati. Per altre informazioni, vedere il video Introduzione alle tabelle Delta.

Funzionalità chiave

Funzionalità	Descrizione
Transazioni ACID	I data lake sono generalmente popolati tramite diversi processi e pipeline, alcuni dei quali eseguono la scrittura dei dati contemporaneamente alla lettura. Prima di Delta Lake e l'aggiunta di transazioni, i data engineer dovevano eseguire un processo manuale soggetto a errori per garantire l'integrità dei dati. Delta Lake offre transazioni ACID familiari ai data lake. Fornisce la serializzabilità, il livello di isolamento più elevato. Per altre informazioni, vedere Analisi dettagliata di Delta Lake: decomprimere il log delle transazioni.
Gestione dei metadati scalabili	In Big Data, persino i metadati stessi possono essere "Big Data". Delta Lake gestisce i metadati esattamente come i dati, sfruttando la potenza di elaborazione distribuita di Spark per gestire tutti i metadati. Di conseguenza, Delta Lake può gestire facilmente tabelle a livello di petabyte con miliardi di partizioni e file.
Spostamento cronologico (controllo delle versioni dei dati)	La possibilità di "annullare" una modifica o tornare a una versione precedente è una delle funzionalità principali delle transazioni. Delta Lake fornisce snapshot dei dati che consentono di ripristinare versioni precedenti dei dati per controlli, rollback o per riprodurre esperimenti. Per altre informazioni, vedere Introduzione a Spostamento cronologico di Delta Lake per data lake di grandi dimensioni.
Apri formato	Apache Parquet è il formato di base per Delta Lake, che consente di sfruttare gli efficienti schemi di compressione e codifica nativi del formato.
Origine di streaming e batch e sink unificati	Una tabella in Delta Lake è sia una tabella batch che un'origine di streaming e un sink. L'inserimento dei dati in streaming, il back-fill cronologico in batch e le query interattive funzionano in modo automatico.
Applicazione dello schema	L'applicazione dello schema consente di garantire che i tipi di dati siano corretti e che siano presenti le colonne necessarie, così da impedire che i dati non corretti causino incoerenze dei dati. Per altre informazioni, vedere Analisi approfondita di Delta Lake: applicazione dello schema ed evoluzione
Evoluzione dello schema	Delta Lake consente di apportare modifiche a uno schema di tabella applicabile automaticamente, senza necessità di scrivere DDL di migrazione. Per altre informazioni, vedere Analisi approfondita di Delta Lake: applicazione dello schema ed evoluzione
Cronologia controllo	Il log delle transazioni Delta Lake registra informazioni dettagliate sulle singole modifiche ai dati fornendo un audit trail completo delle modifiche.
Aggiornamenti ed eliminazioni	Delta Lake supporta le API Scala/Java/Python e SQL per un'ampia gamma di funzionalità. Il supporto per operazioni di unione, aggiornamento ed eliminazione consente di soddisfare i requisiti di conformità. Per altre informazioni, vedere Annuncio della versione Delta Lake 0.6.1, Annuncio della versione Delta Lake 0.7 e Upsert ed eliminazioni semplici ed affidabili in tabelle Delta Lake usando le API Python, che comprende frammenti di codice per i comandi DML di unione, aggiornamento ed eliminazione.
100% compatibile con l'API Apache Spark	Gli sviluppatori possono usare Delta Lake con le pipeline di dati esistenti apportando modifiche minime perché è pienamente compatibile con le implementazioni Spark esistenti.

Per la documentazione completa, vedere la pagina della documentazione di Delta Lake.

Per altre informazioni, vedere il progetto Delta Lake.

Condividi tramite

Perché Delta Lake?

Funzionalità chiave

Passaggi successivi

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive