Introduzione ad Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 è un set di funzionalità dedicate all'analisi dei Big Data, basate su Archiviazione BLOB di Azure.

Data Lake Storage Gen2 converge le funzionalità di Azure Data Lake Storage Gen1 con Archiviazione BLOB di Azure. Offre ad esempio semantica dei file system, sicurezza a livello di file e scalabilità. Poiché queste funzionalità sono basate sull'archiviazione BLOB, si ottiene anche un'archiviazione a livelli e a basso costo, con funzionalità di disponibilità elevata/ripristino di emergenza.

Data Lake Storage Gen2 usa Archiviazione di Azure come base per la compilazione di Enterprise Data Lake (EDL) in Azure. Progettato dall'inizio per servire più petabyte di informazioni supportando al contempo centinaia di Gigabit di velocità effettiva, Data Lake Storage Gen2 consente di gestire facilmente grandi quantità di dati.

Che cos'è un Data Lake?

Un data lake è un singolo repository centralizzato in cui è possibile archiviare tutti i dati, sia strutturati che non strutturati. Un data lake consente all'organizzazione di archiviare, accedere e analizzare in modo semplice e rapido un'ampia gamma di dati in un'unica posizione. Con un data lake, non è necessario adattare i dati a una struttura esistente. È invece possibile archiviare i dati nel formato non elaborato o nativo, in genere come file o come oggetti binari di grandi dimensioni (BLOB).

Azure Data Lake Storage è una soluzione di data lake aziendali basata sul cloud. È progettata per archiviare grandi quantità di dati in qualsiasi formato e per facilitare carichi di lavoro analitici per i Big Data. È possibile usarla per acquisire dati di qualsiasi tipo e velocità di inserimento in un'unica posizione per un facile accesso e analisi usando framework diversi.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 fa riferimento all'implementazione corrente della soluzione di Data Lake Storage di Azure. L'implementazione precedente, Azure Data Lake Storage Gen1 verrà ritirata il 29 febbraio 2024.

A differenza di Data Lake Storage Gen1, Data Lake Storage Gen2 non è un servizio o un tipo di account dedicato. Viene invece implementato come set di funzionalità usate con il servizio di archiviazione BLOB dell'account di archiviazione di Azure. È possibile sbloccare queste funzionalità abilitando l'impostazione dello spazio dei nomi gerarchico.

Data Lake Storage Gen2 include le funzionalità seguenti.

✓ Accesso compatibile con Hadoop

✓ Struttura gerarchica della directory

✓ Costi e prestazioni ottimizzati

✓ Modello di sicurezza granulare più fine

✓ Scalabilità elevata

Accesso compatibile con Hadoop

Azure Data Lake Storage Gen2 è progettato principalmente per usare Hadoop e tutti i framework che usano Apache Hadoop Distributed File System (HDFS) come livello di accesso ai dati. Le distribuzioni di Hadoop includono il driver ABFS (Blob File System) di Azure, che consente a molte applicazioni e framework di accedere direttamente ai dati Archiviazione BLOB di Azure. Il driver ABFS è ottimizzato in modo specifico per l'analisi dei Big Data. Le API REST corrispondenti vengono rilevate tramite l'endpoint dfs.core.windows.net.

I framework di analisi dei dati che usano HDFS come livello di accesso ai dati possono accedere direttamente ai dati Azure Data Lake Storage Gen2 tramite ABFS. Esempi di questo tipo di framework sono il motore di analisi Apache Spark e il motore query Presto SQL.

Per altre informazioni sui servizi e sulle piattaforme supportate, vedere Servizi di Azure che supportano Azure Data Lake Storage Gen2 e piattaforme Open source che supportano Azure Data Lake Storage Gen2.

Struttura gerarchica della directory

Lo spazio dei nomi gerarchico è una funzionalità chiave che consente Azure Data Lake Storage Gen2 di fornire l'accesso ai dati ad alte prestazioni a livello di archiviazione oggetti e prezzo. È possibile usare questa funzionalità per organizzare tutti gli oggetti e i file all'interno dell'account di archiviazione in una gerarchia di directory e sottodirectory annidate. In altre parole, i dati di Azure Data Lake Storage Gen2 sono organizzati in modo molto simile ai file organizzati nel computer.

Operazioni come la ridenominazione o l'eliminazione di una directory diventano singole operazioni atomiche sui metadati della directory. Non è necessario enumerare ed elaborare tutti gli oggetti che condividono il prefisso del nome della directory.

Costi e prestazioni ottimizzati

Azure Data Lake Storage Gen2 viene prezzo a livelli di Archiviazione BLOB di Azure. Si basa sulle funzionalità di Archiviazione BLOB di Azure, ad esempio la gestione automatica dei criteri del ciclo di vita e la suddivisione a livelli a livello di oggetto per gestire i costi di archiviazione big data.

Le prestazioni sono ottimizzate perché non è necessario copiare o trasformare i dati come prerequisiti per l'analisi. La funzionalità dello spazio dei nomi gerarchico di Azure Data Lake Storage consente un accesso e una navigazione efficienti. Questa architettura significa che l'elaborazione dei dati richiede meno risorse di calcolo, riducendo sia la velocità che i costi di accesso ai dati.

Modello di sicurezza granulare più fine

Il modello di controllo di accesso Azure Data Lake Storage Gen2 supporta sia gli elenchi di controllo degli accessi in base al ruolo di Azure che l'interfaccia del sistema operativo portabile per UNIX (POSIX). Esistono anche alcune impostazioni di sicurezza aggiuntive specifiche per Azure Data Lake Storage Gen2. È possibile impostare le autorizzazioni a livello di directory o a livello di file. Tutti i dati archiviati vengono crittografati mentre sono inattivi usando chiavi di crittografia gestite da Microsoft o gestite dal cliente.

Scalabilità elevata

Azure Data Lake Storage Gen2 offre un'archiviazione di grandi dimensioni e accetta numerosi tipi di dati per l'analisi. Non viene imposto alcun limite alle dimensioni degli account, alle dimensioni dei file o alla quantità di dati che è possibile archiviare in un data lake. I singoli file possono avere dimensioni che vanno da pochi kilobyte (KBS) a pochi petabyte (PBS). L'elaborazione viene eseguita a una latenza per richiesta quasi costante, misurata a livello di servizio, account e file.

Questa progettazione significa che Azure Data Lake Storage Gen2 può aumentare facilmente e rapidamente i carichi di lavoro più richiesti. È in grado anche di dimensionarsi facilmente quando la domanda si riduce.

Basato su Archiviazione BLOB di Azure

I dati inseriti in modo permanente come BLOB nell'account di archiviazione. Il servizio che gestisce i BLOB è il servizio Archiviazione BLOB di Azure. Data Lake Storage Gen2 descrive le funzionalità o i "miglioramenti" a questo servizio che soddisfano le esigenze dei carichi di lavoro analitici big data.

Poiché queste funzionalità sono basate su Archiviazione BLOB, funzionalità come la registrazione diagnostica, i livelli di accesso e i criteri di gestione del ciclo di vita sono disponibili per l'account. La maggior parte delle funzionalità di archiviazione BLOB è completamente supportata, ma alcune funzionalità potrebbero essere supportate solo a livello di anteprima e che non sono ancora supportate. Per un elenco completo delle istruzioni di supporto, vedere Supporto delle funzionalità di archiviazione BLOB negli account di archiviazione di Azure. Lo stato di ogni funzionalità elencata cambierà nel tempo perché il supporto continua a espandersi.

Documentazione e terminologia

Il Archiviazione BLOB di Azure sommario include due sezioni del contenuto. La sezione Data Lake Storage Gen2 contenuto fornisce procedure consigliate e indicazioni per l'uso di funzionalità di Data Lake Storage Gen2. La sezione Archiviazione BLOB del contenuto fornisce indicazioni per le funzionalità dell'account non specifiche per Data Lake Storage Gen2.

Quando si spostano tra le sezioni, è possibile notare alcune differenze di terminologia leggermente. Ad esempio, il contenuto in primo piano nella documentazione di Archiviazione BLOB userà il termine BLOB anziché file. Tecnicamente, i file inseriti nell'account di archiviazione diventano BLOB nell'account. Pertanto, il termine è corretto. Tuttavia, il termine BLOB può causare confusione se si usa il file di termine. Verrà anche visualizzato il termine contenitore usato per fare riferimento a un file system. Considera questi termini come sinonimo.

Vedi anche