Scegliere una tecnologia per l'archiviazione di Big Data in Azure

Nota

Il 29 febbraio 2024 Azure Data Lake Archiviazione Gen1 verrà ritirato. Per altre informazioni, consultare l'annuncio ufficiale. Se si usa Azure Data Lake Archiviazione Gen1, assicurarsi di eseguire la migrazione ad Azure Data Lake Archiviazione Gen2 prima di tale data. Per informazioni su come, vedere Eseguire la migrazione di Azure Data Lake Archiviazione da Gen1 a Gen2 usando il portale di Azure.

A meno che non si abbia già un account Azure Data Lake Archiviazione Gen1, non è possibile crearne di nuovi.

In questo argomento vengono confrontate le opzioni per l'archiviazione dei dati per soluzioni Big Data, in particolare l'archiviazione dei dati per l'inserimento in blocco e l'elaborazione batch, anziché gli archivi dati analitici o l'inserimento in streaming in tempo reale.

Opzioni disponibili per la scelta di una tecnologia per l'archiviazione di dati in Azure

Sono disponibili diverse opzioni per l'inserimento di dati in Azure, in base alle esigenze specifiche.

Archiviazione file:

Database NoSQL:

Database analitici:

Esplora dati di Azure

BLOB di Archiviazione di Azure

Archiviazione di Azure è un servizio di archiviazione gestito altamente disponibile, sicuro, affidabile, scalabile e ridondante. Microsoft si occupa della manutenzione e gestisce i problemi critici per conto dell'utente. Archiviazione di Azure è la soluzione di archiviazione più diffusa offerta da Azure grazie alla possibilità di integrazione di un numero elevato di servizi e strumenti.

In Archiviazione di Azure sono disponibili vari servizi per archiviare i dati. L'opzione più flessibile per l'archiviazione di BLOB da molte origini dati è l'archiviazione BLOB. I BLOB sono essenzialmente file Archiviano immagini, documenti, file HTML, dischi rigidi virtuali (VHD), Big Data, ad esempio log, backup del database, praticamente qualsiasi cosa. I BLOB vengono archiviati nei contenitori, che sono simili alle cartelle. Un contenitore consente di raggruppare un set di BLOB. Un account di archiviazione può contenere un numero illimitato di contenitori, ciascuno dei quali può archiviare un numero illimitato di BLOB.

Archiviazione di Azure è una scelta ottimale per le soluzioni per l'analisi e i Big Data, grazie alla flessibilità, alla disponibilità elevata e ai costi contenuti. Offre diversi livelli di archiviazione, ad accesso frequente, ad accesso sporadico e archivio, per diversi casi d'uso. Per altre informazioni, vedere Archivio BLOB di Azure: livelli di archiviazione ad accesso frequente, ad accesso sporadico e archivio.

Archiviazione BLOB di Azure è accessibile da Hadoop (disponibile tramite HDInsight). HDInsight può usare un contenitore BLOB in Archiviazione di Azure come file system predefinito per il cluster. Grazie a un'interfaccia HDFS (Hadoop Distributed File System) fornita da un driver WASB, tutti i componenti disponibili in HDInsight possono agire direttamente sui dati strutturati o non strutturati archiviati come BLOB. Archiviazione BLOB di Azure è accessibile anche tramite Azure Synapse Analytics con la funzionalità PolyBase.

Archiviazione di Azure rappresenta un'ottima scelta anche per altre funzionalità, in particolare:

Azure Data Lake Storage Gen1

Azure Data Lake Archiviazione Gen1 è un repository di iperscalabilità a livello aziendale per carichi di lavoro analitici di Big Data. Data Lake consente di acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento in un'unica posizione sicura per le analisi esplorative e operative.

Azure Data Lake Archiviazione Gen1 non impone limiti alle dimensioni dell'account, alle dimensioni dei file o alla quantità di dati che possono essere archiviati in un data lake. I dati vengono archiviati in modo permanente eseguendo più copie e non esiste alcun limite per la durata di archiviazione dei dati in Data Lake. Oltre a creare più copie dei file per evitare eventuali errori imprevisti, Data Lake distribuisce le varie parti di un file su più server di archiviazione singoli. Ciò migliora la velocità effettiva di lettura durante la lettura in parallelo del file per l'esecuzione dell’analisi dei dati.

È possibile accedere ad Azure Data Lake Archiviazione Gen1 da Hadoop (disponibile tramite HDInsight) usando le API REST compatibili con WebHDFS. È possibile valutare l'opportunità di usare questa soluzione in alternativa ad Archiviazione di Azure quando le dimensioni dei file, singoli o combinati, superano il limite consentito da Archiviazione di Azure. Esistono tuttavia linee guida per l'ottimizzazione delle prestazioni da seguire quando si usa Azure Data Lake Archiviazione Gen1 come risorsa di archiviazione primaria per un cluster HDInsight, con linee guida specifiche per Spark, Hive e MapReduce. Assicurarsi anche di controllare la disponibilità a livello di area di Azure Data Lake Archiviazione Gen1, perché non è disponibile in tutte le aree Archiviazione di Azure e deve trovarsi nella stessa area del cluster HDInsight.

Abbinato ad Azure Data Lake Analytics, Azure Data Lake Archiviazione Gen1 è progettato per abilitare l'analisi sui dati archiviati ed è ottimizzato per le prestazioni per gli scenari di analisi dei dati. È anche possibile accedere ad Azure Data Lake Archiviazione Gen1 tramite Azure Synapse usando la funzionalità PolyBase.

Azure Cosmos DB

Azure Cosmos DB è il database multimodello distribuito a livello globale di Microsoft. Azure Cosmos DB garantisce latenze di millisecondi a cifra singola al 99° percentile ovunque nel mondo, offre più modelli di coerenza ben definiti per ottimizzare le prestazioni e garantisce disponibilità elevata con funzionalità multihoming.

Azure Cosmos DB è completamente indipendente dallo schema. Indicizza automaticamente tutti i dati senza che sia necessario gestire manualmente indici e schemi. È anche un database multimodello e supporta in modalità nativa modelli di dati basati su documenti, coppie chiave-valore, grafi e famiglie di colonne.

Funzionalità di Azure Cosmos DB:

HBase in HDInsight

Apache HBase è un database NoSQL open source basato su Hadoop e modellato su Google BigTable. HBase fornisce accesso casuale e coerenza assoluta per quantità elevate di dati non strutturati e semistrutturati in un database privo di schema organizzato in base a famiglie di colonne.

I dati sono archiviati nelle righe di una tabella e i dati di ogni riga sono raggruppati in base al tipo di colonna. HBase è un database privo di schema poiché non è necessario definire le colonne o il tipo di dati archiviati nelle colonne prima dell'uso. Il codice open source offre scalabilità lineare, in modo da gestire petabyte di dati in migliaia di nodi. Può contare su ridondanza dei dati, elaborazione batch e altre funzionalità offerte dalle applicazioni distribuite nell'ecosistema di Hadoop.

L'implementazione di HDInsight usa l'architettura con scalabilità orizzontale di HBase per automatizzare il partizionamento orizzontale delle tabelle, la coerenza assoluta delle operazioni di lettura e scrittura e il failover automatico. Le prestazioni sono ottimizzate dalla cache in memoria per le operazioni di lettura e da flussi a velocità effettiva elevata per quelle di scrittura. Nella maggior parte dei casi è opportuno creare il cluster HBase all'interno di una rete virtuale per consentire ad altri cluster e applicazioni HDInsight di accedere direttamente alle tabelle.

Esplora dati di Azure

Esplora dati di Azure è un servizio di esplorazione dati rapido e a scalabilità elevata per dati di log e di telemetria. Consente di gestire i numerosi flussi di dati generati dal software moderno, in modo da poter raccogliere, archiviare e analizzare i dati. Esplora dati di Azure è ideale per l'analisi di grandi volumi di dati eterogenei da qualsiasi origine dati, ad esempio siti Web, applicazioni, dispositivi IoT e altro ancora. Questi dati vengono usati per la diagnostica, il monitoraggio, la creazione di report, l'apprendimento automatico e altre funzionalità di analisi. Esplora dati di Azure semplifica l'inserimento dei dati e consente di eseguire complesse query ad hoc sui dati in pochi secondi.

Esplora dati di Azure supporta l'aumento lineare per l'incremento della velocità effettiva di elaborazione delle query e dell'inserimento dati. Per abilitare le reti private, è possibile distribuire in una rete virtuale un cluster di Esplora dati di Azure.

Criteri di scelta principali

Per limitare le possibilità di scelta, rispondere prima di tutto a queste domande:

  • È necessaria una soluzione di archiviazione gestita, ad alta velocità, basata sul cloud per qualsiasi tipo di dati di testo o binari? In caso affermativo, scegliere una delle opzioni di analisi o archiviazione di file.

  • È necessaria una soluzione di archiviazione di file ottimizzata per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo? In caso affermativo, scegliere un'opzione ottimizzata per le prestazioni richieste dai carichi di lavoro di analisi.

  • È necessario archiviare dati non strutturati o semistrutturati in un database privo di schema? In caso affermativo, scegliere una delle opzioni di analisi o non relazionali. Mettere a confronto le opzioni per i modelli di indicizzazione e database. A seconda del tipo di dati da archiviare, i modelli di database primario possono offrire la massima capacità.

  • È possibile usare il servizio nella propria area? Controllare la disponibilità di ogni servizio di Azure a livello di area. Vedere Prodotti disponibili in base all'area.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità per l'archiviazione di file

Funzionalità Azure Data Lake Storage Gen1 Contenitori di Archiviazione BLOB di Azure
Scopo Archiviazione ottimizzata per carichi di lavoro di analisi dei Big Data Archivio di oggetti generico per un'ampia gamma di scenari di archiviazione
Utilizzare casi Dati batch, analisi di flusso e di apprendimento automatico come file di log, dati IoT, dati clickstream e set di dati di grandi dimensioni Qualsiasi tipo di dati di testo o binari, come back-end di applicazioni, dati di backup, archiviazione di supporti per streaming e dati di utilizzo generico
Struttura File system gerarchico Archivio di oggetti con spazio dei nomi flat
Autenticazione Basato sulle identità di Microsoft Entra Basata su segreti condivisi, chiavi di accesso dell'account e chiavi di firma di accesso condiviso, e Controllo degli accessi in base al ruolo (Azure RBAC)
Protocollo di autenticazione OAuth 2.0. Le chiamate devono contenere un token JWT valido (token Web JSON) rilasciato dall'ID Microsoft Entra HMAC (Hash-based Message Authentication Code): Le chiamate devono contenere un hash SHA-256 con codifica Base64 su una parte della richiesta HTTP.
Autorizzazione Elenchi di controllo di accesso (ACL) POSIX: Gli ACL basati sulle identità di Microsoft Entra possono essere impostati a livello di file e cartelle. Per l'autorizzazione a livello di account, usare chiavi di accesso dell'account e per l'autorizzazione relativa ad account, contenitori o BLOB, usare chiavi di firma di accesso condiviso
Controllo Disponibile. Disponibili
Crittografia dei dati inattivi Trasparente, lato server Trasparente, lato server; crittografia lato client
SDK per sviluppatori .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo Non è ottimizzato per carichi di lavoro di analisi.
Limiti di dimensione Nessun limite di dimensioni per l'account, i file o il numero di file Limiti specifici documentati qui
Ridondanza geografica Archiviazione con ridondanza locale, archiviazione con ridondanza geografica, archiviazione con ridondanza geografica e accesso in lettura e archiviazione con ridondanza della zona. Archiviazione con ridondanza locale, archiviazione con ridondanza geografica, archiviazione con ridondanza geografica e accesso in lettura e archiviazione con ridondanza della zona. Per altre informazioni, fare clic qui .

Funzionalità di database NoSQL

Funzionalità Azure Cosmos DB HBase in HDInsight
Modello di database primario Archivio a documenti, a grafo, a chiave-valore, a colonne esteso Archivio a colonne esteso
Indici secondari No
Supporto per il linguaggio SQL Sì (con il driver JDBC Phoenix)
Coerenza Assoluta, decadimento ristretto, sessione, coerenza del prefisso, finale Assoluta
Integrazione nativa di Funzioni di Azure No
Distribuzione globale automatica Nessunareplica del cluster HBase può essere configurata tra aree con coerenza finale
Modello di determinazione prezzi Unità richiesta (RU) scalabili in modo elastico addebitate al secondo in base alle esigenze, archiviazione scalabile in modo elastico Prezzi al minuto per il cluster HDInsight (scalabilità orizzontale dei nodi), archiviazione

Funzionalità di database analitici

Funzionalità Esplora dati di Azure
Modello di database primario Archivio relazionale (archivio colonne), dati di telemetria e serie temporali
Supporto per il linguaggio SQL
Modello di determinazione prezzi Istanze del cluster con scalabilità elastica
Autenticazione Basato sulle identità di Microsoft Entra
Crittografia dei dati inattivi Chiavi gestite dal cliente supportate
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi parallela
Limiti di dimensione Scalabilità lineare

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi