OneLake, OneDrive per i dati

OneLake è un singolo data lake unificato e logico per l'intera organizzazione. Come OneDrive, OneLake viene fornito automaticamente con ogni tenant di Microsoft Fabric ed è progettato per essere l'unica posizione per tutti i dati di analisi. OneLake offre ai clienti:

  • Un data lake per l'intera organizzazione
  • Una copia dei dati da usare con più motori analitici

Importante

Microsoft Fabric è disponibile in anteprima.

Un data lake per l'intera organizzazione

Prima di OneLake, è stato più semplice per i clienti creare più laghi per diversi gruppi di business anziché collaborare su un singolo lago, anche con il sovraccarico aggiuntivo della gestione di più risorse. OneLake si concentra sulla rimozione di queste sfide migliorando la collaborazione. Ogni tenant del cliente ha esattamente un OneLake. Non ci possono mai essere più di uno e, se si dispone di Fabric, non può mai essere zero. Il provisioning di OneLake viene eseguito automaticamente con ogni tenant di Fabric senza risorse aggiuntive da configurare o gestire.

Regolata per impostazione predefinita con la proprietà distribuita per la collaborazione

Il concetto di tenant è un vantaggio unico di un servizio SaaS. Sapere dove inizia e termina l'organizzazione di un cliente, fornisce un limite naturale di governance e conformità, che è in definitiva sotto il controllo di un amministratore tenant. Tutti i dati terreni in OneLake sono regolati per impostazione predefinita. Anche se tutti i dati sono entro i limiti impostati dall'amministratore tenant, è importante che questo amministratore non diventi un gatekeeper centrale che impedisce ad altre parti dell'organizzazione di contribuire a OneLake. All'interno di un tenant è possibile creare un numero qualsiasi di aree di lavoro. Le aree di lavoro consentono a diverse parti dell'organizzazione di distribuire la proprietà e i criteri di accesso. Ogni area di lavoro fa parte di una capacità associata a un'area specifica e viene fatturata separatamente.

Diagramma che mostra la funzione e la struttura di OneLake.

All'interno di un'area di lavoro è possibile creare elementi di dati e tutti i dati in OneLake sono accessibili tramite elementi di dati. Analogamente a come Office archivia i file di Word, Excel e PowerPoint in OneDrive, Fabric archivia lakehouse, magazzini e altri elementi in OneLake. Gli elementi possono offrire esperienze personalizzate per ogni persona, ad esempio l'esperienza di sviluppo Spark in una lakehouse. Per altre informazioni su come iniziare a usare OneLake, vedere Creazione di una lakehouse con OneLake.

Aperto a ogni livello

OneLake è aperto a ogni livello. Basato su Azure Data Lake Storage Gen2, OneLake può supportare qualsiasi tipo di file, strutturato o non strutturato. Tutti gli elementi di dati di Fabric, ad esempio data warehouse e lakehouse, archiviano automaticamente i dati in OneLake in formato parquet delta. Ciò significa che quando un data engineer carica i dati in un lakehouse usando Spark e uno sviluppatore SQL in un data warehouse completamente transazionale usa T-SQL per caricare i dati, tutti contribuiscono a creare lo stesso data lake. Tutti i dati tabulari vengono archiviati in OneLake in formato parquet delta. OneLake supporta le stesse API e GLI SDK di ADLS Gen2 per essere compatibili con le applicazioni ADLS Gen2 esistenti, tra cui Azure Databricks. I dati in OneLake possono essere indirizzati come se fosse un account di archiviazione ADLS di grandi dimensioni per l'intera organizzazione. Ogni area di lavoro viene visualizzata come contenitore all'interno di tale account di archiviazione. Elementi di dati diversi vengono visualizzati come cartelle in tali contenitori.

Diagramma che illustra come accedere ai dati di OneLake con API e SDK.

Per altre informazioni sulle API e gli endpoint, vedere Accesso a OneLake e API. Per esempi di integrazione di OneLake con Azure, vedere gli articoli Azure Synapse Analytics, Azure Storage Explorer, Azure Databricks e Azure HDInsight.

Esplora file OneLake per Windows

OneLake è OneDrive per i dati. Proprio come OneDrive, i dati di OneLake possono essere facilmente esplorati da Windows usando Esplora file di OneLake per Windows. Direttamente in Windows, è possibile esplorare tutte le aree di lavoro, gli elementi di dati, caricare, scaricare o modificare facilmente i file come si può fare in office. OneLake File Explorer semplifica i data lake mettendoli nelle mani anche di utenti aziendali non tecnici. Per altre informazioni, vedere Esplora file di OneLake.

Una copia dei dati

OneLake mira a offrire il massimo valore possibile da una singola copia dei dati senza spostamento o duplicazione dei dati. Non sarà più necessario copiare i dati solo per usarli con un altro motore o per suddividere i silo in modo che i dati possano essere analizzati con altri dati.

I collegamenti consentono di connettere i dati tra domini aziendali senza spostamento dei dati

I collegamenti consentono all'organizzazione di condividere facilmente i dati tra utenti e applicazioni senza dover spostare e duplicare le informazioni inutilmente. Quando i team lavorano in modo indipendente in aree di lavoro separate, i collegamenti consentono di combinare i dati in gruppi e domini aziendali diversi in un prodotto dati virtuale in base alle esigenze specifiche di un utente. Un collegamento è un riferimento ai dati archiviati in altri percorsi di file. Questi percorsi di file possono trovarsi nella stessa area di lavoro o in aree di lavoro diverse, all'interno di OneLake o all'esterno di OneLake in ADLS o S3. Indipendentemente dal percorso, il riferimento lo visualizza come se i file e le cartelle vengano archiviati in locale.

Diagramma che mostra come i collegamenti connettono i dati tra aree di lavoro ed elementi.

Per altre informazioni su come usare i tasti di scelta rapida, vedere Collegamenti a OneLake.

Una copia dei dati con più motori analitici

Anche se le applicazioni possono avere la separazione dell'archiviazione e del calcolo, i dati vengono spesso ottimizzati per un singolo motore, il che rende difficile riutilizzare gli stessi dati per più applicazioni. Con Fabric, i diversi motori analitici (T-SQL, Spark, Analysis Services e così via) archiviano i dati nel formato parquet differenziale aperto per consentire l'uso degli stessi dati tra più motori. Non è più necessario copiare i dati solo per usarli con un altro motore. È sempre possibile scegliere il motore migliore per il lavoro che si sta tentando di eseguire. Si supponga, ad esempio, di avere un team di ingegneri SQL che crea un data warehouse completamente transazionale. Possono usare il motore T-SQL e tutta la potenza di T-SQL per creare tabelle, trasformare e caricare dati in tabelle. Se un data scientist vuole usare questi dati, non è più necessario usare un driver Spark/SQL speciale. Tutti i dati vengono archiviati in OneLake in formato parquet delta. I data scientist possono usare tutta la potenza del motore Spark e delle relative librerie open source direttamente sui dati.

Gli utenti aziendali possono creare report di Power BI direttamente su OneLake usando la nuova modalità direct lake nel motore di Analysis Services. Il motore di Analysis Services è ciò che alimenta i set di dati di Power BI e offre sempre due modalità di accesso ai dati, all'importazione e alla query diretta. La modalità Direct Lake offre agli utenti tutta la velocità di importazione senza la necessità di copiare i dati, combinando il meglio dell'importazione e della query diretta. Altre informazioni su direct lake: https://aka.ms/DirectLake.

Diagramma che mostra come più elementi e motori usano la stessa copia dei dati.Diagramma di esempio che illustra il caricamento dei dati tramite Spark, l'esecuzione di query con T-SQL e la visualizzazione dei dati in un report di Power BI.

Passaggi successivi