Che cos'è Azure Data Lake Storage Gen1?
Nota
Azure Data Lake Storage Gen1 è ora ritirato. Vedere l'annuncio di ritiro qui. Le risorse di Data Lake Storage Gen1 non sono più accessibili.
Azure Data Lake Storage Gen1 è un repository su vasta scala a livello aziendale per carichi di lavoro di analisi di Big Data. Azure Data Lake consente di acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento in un'unica posizione per le analisi esplorative e operative.
Si può accedere a Data Lake Storage Gen1 da Hadoop (disponibile con i cluster HDInsight) mediante le API REST compatibili con WebHDFS. È progettato per consentire l'analisi dei dati archiviati e ottimizzato per offrire prestazioni elevate in scenari di analisi dei dati. Azure Data Lake Storage Gen1 include tutte le funzionalità di livello aziendale: sicurezza, gestibilità, scalabilità, affidabilità e disponibilità.
Funzionalità chiave
Di seguito sono riportate alcune delle principali funzionalità di Data Lake Storage Gen1.
Creato per Hadoop
Data Lake Storage Gen1 è un file system Apache Hadoop compatibile con HDFS (Hadoop Distributed File System) e con l'ecosistema Hadoop. Le applicazioni HDInsight esistenti o i servizi che usano l'API WebHDFS possono integrarsi facilmente con Data Lake Storage Gen1. Data Lake Storage Gen1 presenta anche un'interfaccia REST compatibile con WebHDFS per le applicazioni.
I dati archiviati in Data Lake Storage Gen1 possono essere analizzati facilmente mediante framework di analisi di Hadoop come MapReduce o Hive. È possibile effettuare il provisioning dei cluster Azure HDInsight e configurarli per accedere direttamente ai dati archiviati in Data Lake Storage Gen1.
Archiviazione illimitata, file dei petabyte
Data Lake Storage Gen1 offre un'archiviazione illimitata e può archiviare una varietà di dati per l'analisi. Non impone alcun limite per le dimensioni degli account, le dimensioni dei file o la quantità di dati che possono essere archiviati in un data lake. Le dimensioni dei singoli file possono spaziare da pochi kilobyte a diversi petabyte. I dati vengono archiviati in modo permanente mediante la creazione di più copie. Non esiste alcun limite sulla durata del periodo di archiviazione dei dati nel data lake.
Prestazioni ottimizzate per l'analisi di Big Data
Data Lake Storage Gen1 è progettato per l'esecuzione di sistemi di analisi su larga scala che richiedono una velocità effettiva molto elevata per eseguire query e analisi su grandi quantità di dati. Il Data Lake propaga parti di un file su un numero di singoli server di archiviazione. Ciò migliora la velocità effettiva di lettura durante la lettura in parallelo del file per l'esecuzione dell’analisi dei dati.
Pronto per le aziende: disponibilità elevata e sicurezza
Data Lake Storage Gen1 offre affidabilità e disponibilità standard del settore. Gli asset di dati vengono archiviati in modo permanente creando copie ridondanti per salvaguardarsi da eventuali errori imprevisti.
Data Lake Storage Gen1 offre anche la protezione a livello aziendale per i dati archiviati. Per altre informazioni, vedere Protezione dei dati in Azure Data Lake Storage Gen1.
Tutti i dati
Data Lake Storage Gen1 può archiviare qualsiasi tipo dii dati nel formato nativo, senza alcuna trasformazione preliminare. Data Lake Storage Gen1 non richiede la definizione di uno schema prima che i dati vengano caricati, lasciando al singolo framework di analisi l'interpretazione dei dati e la definizione di uno schema al momento dell'analisi. La capacità di archiviare file di qualsiasi dimensione e formato consente a Data Lake Storage Gen1 di gestire dati strutturati, semi-strutturati e non strutturati.
I contenitori Data Lake Storage Gen1 per i dati sono essenzialmente cartelle e file. I dati archiviati vengono eseguiti usando SDK, i portale di Azure e Azure PowerShell. Se si inseriscono i dati nell'archivio usando queste interfacce e i contenitori appropriati, è possibile archiviare qualsiasi tipo di dati. Data Lake Storage Gen1 non esegue una gestione particolare dei dati in base al tipo di dati archiviati.
Protezione dei dati
Data Lake Storage Gen1 usa Microsoft Entra ID per l'autenticazione e gli elenchi di controllo di accesso (ACL) per gestire l'accesso ai dati.
Funzionalità | Descrizione |
---|---|
Autenticazione | Data Lake Storage Gen1 si integra con Microsoft Entra ID per la gestione delle identità e degli accessi per tutti i dati archiviati in Data Lake Storage Gen1. A causa dell'integrazione, Data Lake Storage Gen1 trae vantaggio da tutte le funzionalità di Microsoft Entra, ad esempio l'autenticazione a più fattori, l'accesso condizionale, il controllo degli accessi in base al ruolo di Azure, il monitoraggio dell'utilizzo delle applicazioni, il monitoraggio della sicurezza e gli avvisi e così via. Data Lake Storage Gen1 supporta il protocollo OAuth 2.0 per l'autenticazione nell'interfaccia REST. Vedere Autenticazione di Data Lake Storage Gen1. |
Controllo di accesso | Data Lake Storage Gen1 offre il controllo di accesso mediante il supporto delle autorizzazioni di tipo POSIX esposte dal protocollo WebHDFS. È possibile abilitare gli elenchi di controllo di accesso nella cartella radice, nelle sottocartelle e nei singoli file. Per altre informazioni sul funzionamento di questi elenchi nel contesto di Data Lake Storage Gen1, vedere Controllo di accesso in Data Lake Storage Gen1. |
Crittografia | Data Lake Storage Gen1 offre anche la crittografia dei dati archiviati nell'account. Le impostazioni della crittografia vengono specificate durante la creazione di un account Data Lake Storage Gen1. È possibile scegliere di crittografare i dati oppure di fare a meno della crittografia. Per altre informazioni, vedere Crittografia in Data Lake Storage Gen1. Per istruzioni su come specificare la configurazione relativa alla crittografia, vedere Iniziare a usare Data Lake Storage Gen1 tramite il portale di Azure. |
Per istruzioni su come proteggere i dati in Data Lake Storage Gen1, vedere Protezione dei dati in Azure Data Lake Storage Gen1.
Compatibilità delle applicazioni
Data Lake Storage Gen1 è compatibile con la maggior parte dei componenti open source nell'ecosistema Hadoop. Si integra bene anche con altri servizi di Azure. Per altre informazioni su come usare Data Lake Storage Gen1 con componenti open source e altri servizi di Azure, usare i collegamenti seguenti:
- Consultare Applicazioni e servizi compatibili con Azure Data Lake Storage Gen1 per un elenco delle applicazioni open source che è possibile usare con Data Lake Storage Gen1.
- Vedere Integrazione con altri servizi di Azure per informazioni su come usare Data Lake Storage Gen1 con altri servizi di Azure per coprire una gamma di scenari più ampia.
- Vedere Scenari per l'uso di Data Lake Storage Gen1 per informazioni su come usare Data Lake Storage Gen1 in scenari come l'inserimento, l'elaborazione, il download e la visualizzazione dei dati.
File system di Data Lake Storage Gen1
È possibile accedere a Data Lake Storage Gen1 tramite il file system AzureDataLakeFilesystem (adl://) negli ambienti Hadoop (disponibile con il cluster HDInsight). Le applicazioni e i servizi che usano adl:// possono sfruttare altre ottimizzazioni delle prestazioni che non sono attualmente disponibili in WebHDFS. Di conseguenza, Data Lake Storage Gen1 offre la flessibilità di scegliere se ottenere prestazioni ottimali con l'uso consigliato di adl:// o mantenere il codice esistente continuando a usare direttamente l'API WebHDFS. Azure HDInsight usa AzureDataLakeFilesystem per offrire le migliori prestazioni in Data Lake Storage Gen1.
È possibile accedere ai dati in Data Lake Storage Gen1 usando adl://<data_lake_storage_gen1_name>.azuredatalakestore.net
. Per altre informazioni su come accedere ai dati in Data Lake Storage Gen1, vedere Visualizzare le proprietà dei dati archiviati.