Scenarier för dataströminmatning

Slutförd

Azure Synapse Analytics tillhandahåller flera sätt att analysera stora mängder data. Två av de vanligaste metoderna för storskalig dataanalys är:

  • Informationslager – relationsdatabaser, optimerade för distribuerad lagring och frågebearbetning. Data lagras i tabeller och efterfrågas med SQL.
  • Datasjöar – distribuerad fillagring där data lagras som filer som kan bearbetas och efterfrågas med flera körningar, inklusive Apache Spark och SQL.

Informationslager i Azure Synapse Analytics

Azure Synapse Analytics tillhandahåller dedikerade SQL-pooler som du kan använda för att implementera relationsdatalager i företagsskala. Dedikerade SQL-pooler baseras på en MPP-instans (massively parallel processing ) av relationsdatabasmotorn microsoft SQL Server där data lagras och efterfrågas i tabeller.

Om du vill mata in realtidsdata i ett relationsdatalager måste Azure Stream Analytics-frågan skriva sina resultat till utdata som refererar till den tabell som du vill läsa in data i.

A diagram of a stream of data being ingested into a dedicated SQL pool in Azure Synapse Analytics.

Datasjöar i Azure Synapse Analytics

En Azure Synapse Analytics-arbetsyta innehåller vanligtvis minst en lagringstjänst som används som en datasjö. Oftast finns datasjön på ett Azure Storage-konto med hjälp av en container som har konfigurerats för att stödja Azure Data Lake Storage Gen2. Filer i datasjön ordnas hierarkiskt i kataloger (mappar) och kan lagras i flera filformat, inklusive avgränsad text (till exempel kommaavgränsade värden eller CSV), Parquet och JSON.

När du matar in realtidsdata i en datasjö måste Azure Stream Analytics-frågan skriva sina resultat till utdata som refererar till platsen i Azure Data Lake Gen2-lagringscontainern där du vill spara datafilerna. Dataanalytiker, tekniker och forskare kan sedan bearbeta och köra frågor mot filerna i datasjön genom att köra kod i en Apache Spark-pool eller genom att köra SQL-frågor med hjälp av en serverlös SQL-pool.

A diagram of a stream of data being ingested into an Azure Storage data lake and queried in Azure Synapse Analytics.