Introduzione ad Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 è un set di funzionalità dedicate all'analisi dei Big Data, basata su Archiviazione BLOB di Azure.

Data Lake Storage Gen2 converge le funzionalità di Azure Data Lake Storage Gen1 con Archiviazione BLOB di Azure. Offre ad esempio semantica dei file system, sicurezza a livello di file e scalabilità. Poiché queste funzionalità sono basate sull'archiviazione BLOB, si ottiene anche un'archiviazione a più livelli a costi contenuti, con funzionalità di disponibilità elevata e ripristino di emergenza.

Progettato per l'analisi dei Big Data Enterprise

Data Lake Storage Gen2 usa Archiviazione di Azure come base per la compilazione di Enterprise Data Lake (EDL) in Azure. Progettato dall'inizio per servire più petabyte di informazioni supportando al contempo centinaia di Gigabit di velocità effettiva, Data Lake Storage Gen2 consente di gestire facilmente grandi quantità di dati.

Una parte fondamentale di Data Lake Storage Gen2 è l'aggiunta di uno spazio dei nomi gerarchico all'archivio BLOB. Lo spazio dei nomi gerarchico organizza gli oggetti e i file in una gerarchia di directory per un accesso ai dati efficiente. Una convenzione di denominazione comune per l'archiviazione di oggetti prevede l'inserimento di slash nel nome per simulare una struttura di directory gerarchica. Questa struttura diventa effettiva con Data Lake Storage Gen2. Operazioni come la ridenominazione o l'eliminazione di una directory diventano singole operazioni atomiche sui metadati della directory. Non è necessario enumerare ed elaborare tutti gli oggetti che condividono il prefisso del nome della directory.

Data Lake Storage Gen2 si basa su archiviazione BLOB e migliora le prestazioni, la gestione e la sicurezza nei modi seguenti:

  • Le prestazioni sono ottimizzate perché non è necessario copiare o trasformare i dati come prerequisito per l'analisi. Rispetto allo spazio dei nomi flat in archiviazione BLOB, lo spazio dei nomi gerarchico migliora notevolmente le prestazioni delle operazioni di gestione directory, consentendo di aumentare le prestazioni complessive del processo.

  • La gestione risulta più semplice poiché è possibile organizzare e gestire i file nelle directory e sottodirectory.

  • La protezione si può applicare perché è possibile definire le autorizzazioni POSIX delle directory o dei singoli file.

Data Lake Storage Gen2 è anche molto conveniente perché si basa sull'archiviazione BLOB di Azure a basso costo. Le funzionalità aggiuntive riducono ulteriormente il costo totale di proprietà per l'esecuzione di analisi dei Big Data in Azure.

Funzionalità principali di Data Lake Storage Gen2

  • Accesso compatibile con Hadoop: Data Lake Storage Gen2 consente di gestire e accedere ai dati esattamente come si farebbe con hadoop Distributed File System (HDFS). Il nuovo driver ABFS (usato per accedere ai dati) è disponibile in tutti gli ambienti Apache Hadoop. Questi ambienti includono Azure HDInsight,Azure Databricks e Azure Synapse Analytics.

  • Un superset di autorizzazioni POSIX: Il modello di sicurezza per Data Lake Gen2 supporta le autorizzazioni ACL e POSIX insieme ad alcune granularità aggiuntive specifiche per Data Lake Storage Gen2. È possibile configurare le impostazioni tramite Storage Explorer o framework come Hive e Spark.

  • Conveniente: Data Lake Storage Gen2 offre capacità e transazioni di archiviazione a basso costo. Funzionalità come il ciclo di vita di Archiviazione BLOB di Azure ottimizzano i costi man mano che i dati passano attraverso il ciclo di vita.

  • Driver ottimizzato: Il driver ABFS è ottimizzato in modo specifico per l'analisi dei Big Data. Le API REST corrispondenti vengono rilevate tramite l'endpoint dfs.core.windows.net.

Scalabilità

Archiviazione di Azure è scalabile per impostazione predefinita, sia che si acceda da Data Lake Storage Gen2 o dalle interfacce di archiviazione BLOB. È in grado di archiviare e servire molti esabyte di dati. Questa quantità di archiviazione è disponibile con la velocità effettiva misurata in Gigabit al secondo (Gbps) con un elevato livello di operazioni di I/O al secondo (IOPS). L'elaborazione viene eseguita a una latenza per richiesta quasi costante, misurata a livello di servizio, account e file.

Convenienza

Poiché Data Lake Storage Gen2 è basato su Archiviazione BLOB di Azure, i costi di archiviazione e transazione sono inferiori. A differenza di altri servizi di archiviazione cloud, non è necessario spostare o trasformare i dati per poterli analizzare. Per altre informazioni sui prezzi, vedere Prezzi di Archiviazione di Azure.

Funzionalità quali lo spazio dei nomi gerarchico migliorano significativamente anche le prestazioni complessive di molti processi di analisi. Questo miglioramento nelle prestazioni implica una minore capacità di calcolo per elaborare la stessa quantità di dati, con conseguente riduzione del costo totale di proprietà (TCO) per il processo di analisi end-to-end.

Un servizio, più concetti

Poiché Data Lake Storage Gen2 è basato su Archiviazione BLOB di Azure, è possibile usare più concetti per descrivere gli stessi elementi comuni.

Di seguito sono elencate le entità equivalenti, descritte da concetti diversi. Se non diversamente specificato, queste entità sono chiaramente sinonimi:

Concetto Organizzazione di livello superiore Organizzazione di livello inferiore Contenitore dati
BLOB - Archiviazione di oggetti per utilizzo generico Contenitore Directory virtuale (solo SDK- non fornisce manipolazione atomica) BLOB
Azure Data Lake Storage Gen2 - Archiviazione di Analisi Contenitore Directory File

Funzionalità di archiviazione BLOB supportate

Le funzionalità di Archiviazione BLOB, ad esempio la registrazione diagnostica, i livelli di accesso e i criteri di gestione del ciclo di vita dell'archiviazione BLOB sono disponibili per l'account. La maggior parte delle funzionalità di archiviazione BLOB è completamente supportata, ma alcune funzionalità sono supportate solo a livello di anteprima o non ancora supportate.

Per informazioni sul supporto di ogni funzionalità di archiviazione BLOB con Data Lake Storage Gen2, vedere Supporto delle funzionalità di archiviazione BLOB negli account di archiviazione di Azure.

Integrazioni di servizi di Azure supportate

Data Lake Storage Gen2 supporta diversi servizi di Azure, che possono essere usati per inserire dati, eseguire analisi e creare rappresentazioni visive. Per un elenco dei servizi di Azure supportati, vedere Servizi di Azure che supportano Azure Data Lake Storage Gen2.

Piattaforme open source supportate

Diverse piattaforme open source supportano Data Lake Storage Gen2. Per un elenco completo, vedere Piattaforme open source che supportano Azure Data Lake Storage Gen2.

Vedere anche