Scenari di inserimento di flussi

Completato

Azure Synapse Analytics offre diversi modi per analizzare grandi volumi di dati. Due degli approcci più comuni all'analisi dei dati su larga scala sono:

  • Data warehouse, ovvero database relazionali, ottimizzati per l'archiviazione distribuita e l'elaborazione di query. I dati vengono archiviati in tabelle e sottoposti a query tramite SQL.
  • Data lake, archivi di file distribuiti in cui i dati vengono archiviati come file che possono essere elaborati e sottoposti a query usando più runtime, tra cui Apache Spark e SQL.

Data warehouse in Azure Synapse Analytics

Azure Synapse Analytics offre pool SQL dedicati che è possibile usare per implementare data warehouse relazionali su scala aziendale. I pool SQL dedicati si basano su un'istanza MPP (Massively Parallel Processing) del motore di database relazionale di Microsoft SQL Server in cui i dati vengono archiviati e sottoposti a query in tabelle.

Per inserire dati in tempo reale in un data warehouse relazionale, la query di Analisi di flusso di Azure deve scrivere i risultati in un output che fa riferimento alla tabella in cui si vogliono caricare i dati.

A diagram of a stream of data being ingested into a dedicated SQL pool in Azure Synapse Analytics.

Data lake in Azure Synapse Analytics

Un'area di lavoro Azure Synapse Analytics include in genere almeno un servizio di archiviazione usato come data lake. In genere, il data lake è ospitato in un account di archiviazione di Azure usando un contenitore configurato per supportare Azure Data Lake Storage Gen2. I file nel data lake sono organizzati gerarchicamente in directory (cartelle) e possono essere archiviati in più formati di file, tra cui testo delimitato (ad esempio valori delimitati da virgole o CSV), Parquet e JSON.

Quando si inseriscono dati in tempo reale in un data lake, la query di Analisi di flusso di Azure deve scrivere i risultati in un output che fa riferimento alla posizione nel contenitore di archiviazione di Azure Data Lake Gen2 in cui si vogliono salvare i file di dati. Gli analisti dei dati, i tecnici e gli scienziati possono quindi elaborare ed eseguire query sui file nel data lake eseguendo il codice in un pool di Apache Spark o eseguendo query SQL usando un pool SQL serverless.

A diagram of a stream of data being ingested into an Azure Storage data lake and queried in Azure Synapse Analytics.