Share via


Database Lake

Il database Lake in Azure Synapse Analytics consente ai clienti di unire la progettazione del database, le informazioni meta sui dati archiviati e la possibilità di descrivere come e dove archiviarli. Il database Lake affronta la sfida dei data lake odierni in cui è difficile comprendere come sono strutturati i dati.

Lake database overview

Progettazione database

La nuova finestra di progettazione di database in Synapse Studio offre la possibilità di creare un modello di dati per il database Lake e aggiungervi altre informazioni. È possibile descrivere ogni entità e attributo per fornire altre informazioni sul modello, che non solo contiene entità, ma anche relazioni. In particolare, l'impossibilità di modellare le relazioni è stata una sfida per l'interazione sul data lake. Questa sfida è ora affrontata con una finestra di progettazione integrata che offre possibilità disponibili nei database ma non nel lake. Inoltre, la possibilità di aggiungere descrizioni e possibili valori demo al modello consente alle persone che interagiscono con esso in futuro di avere informazioni ove sono necessarie così da consentire una migliore comprensione dei dati.

Archiviazione di dati

I database Lake usano un data lake nell'account di archiviazione di Azure per archiviare i dati del database. È possibile archiviare i dati in formato Parquet, Delta o CSV, oltre che usare impostazioni differenti per ottimizzare lo spazio di archiviazione. Ogni database Lake usa un servizio collegato per definire il percorso della cartella dati radice. Per ogni entità, cartelle separate vengono create per impostazione predefinita all'interno di questa cartella di database nel data lake. Per impostazione predefinita, tutte le tabelle all'interno di un database Lake usano lo stesso formato; tuttavia, è possibile modificare i formati e la posizione dei dati per ogni entità, se necessario.

Nota

La pubblicazione di un database Lake non crea alcuna delle strutture o degli schemi sottostanti necessari per eseguire query sui dati in Spark o SQL. Dopo la pubblicazione, caricare i dati nel database Lake usando le pipeline per iniziare a eseguire query.

Attualmente, il supporto del formato Delta per i database Lake non è supportato in Synapse Studio.

La sincronizzazione degli oggetti di database Lake tra la risorsa di archiviazione e Synapse è unidirezionale. Assicurarsi di eseguire la creazione o modifica dello schema degli oggetti di database Lake usando la finestra di progettazione di database in Synapse Studio. Se invece si apportano tali modifiche da Spark o direttamente nell'archiviazione, le definizioni dei database Lake non verranno sincronizzate. In questo caso, è possibile che nella finestra di progettazione database vengano visualizzate le definizioni di database Lake precedenti. Sarà necessario replicare e pubblicare tali modifiche nella finestra di progettazione del database per sincronizzare nuovamente i database Lake.

Calcolo del database

Il database Lake viene esposto nel pool SQL serverless di Synapse SQL e Apache Spark che offre agli utenti la possibilità di separare l'archiviazione dal calcolo. I metadati associati al database Lake semplificano l'uso di motori di calcolo differenti, non solo per offrire un'esperienza integrata, ma anche usare informazioni aggiuntive (ad esempio relazioni) non supportate originariamente nel data lake.

Passaggi successivi

Continuare a esplorare le funzionalità della finestra di progettazione database usando i collegamenti seguenti.