Dela via


Koncept för strukturerad direktuppspelning

Den här artikeln innehåller en introduktion till strukturerad direktuppspelning i Azure Databricks.

Vad är strukturerad direktuppspelning?

Apache Spark Structured Streaming är en bearbetningsmotor i nästan realtid som erbjuder feltolerans från slutpunkt till slutpunkt med garantier för exakt en gång-bearbetning med hjälp av välbekanta Spark-API:er. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.

Läsa från en dataström

Du kan använda Structured Streaming för att inkrementellt mata in data från datakällor som stöds. Vanliga datakällor omfattar följande:

Varje datakälla innehåller ett antal alternativ för att ange hur du läser in batchar med data. Under läsarkonfigurationen kan du behöva konfigurera alternativ för att göra följande:

  • Ange datakällan eller formatet (till exempel filtyp, avgränsare och schema).
  • Konfigurera åtkomst till källsystem (till exempel portinställningar och autentiseringsuppgifter).
  • Ange var du ska börja i en ström (till exempel Kafka-förskjutningar eller läsning av alla befintliga filer).
  • Styr hur mycket data som bearbetas i varje batch (till exempel maximala förskjutningar, filer eller byte per batch). Se Konfigurera batchstorlek för strukturerad direktuppspelning på Azure Databricks.

Skriva till en datamottagare

En datamottagare är målet för en direktuppspelningsskrivningsåtgärd. Vanliga mottagare som används i strömningsarbetsbelastningar i Azure Databricks är följande:

  • Data Lake
  • Meddelandebussar och köer
  • Nyckelvärdesdatabaser

Precis som med datakällor ger de flesta datamottagare ett antal alternativ för att styra hur data skrivs till målsystemet. Under skrivarkonfigurationen anger du följande alternativ: