Koncept för strukturerad direktuppspelning
Den här artikeln innehåller en introduktion till strukturerad direktuppspelning i Azure Databricks.
Vad är strukturerad direktuppspelning?
Apache Spark Structured Streaming är en bearbetningsmotor i nästan realtid som erbjuder feltolerans från slutpunkt till slutpunkt med garantier för exakt en gång-bearbetning med hjälp av välbekanta Spark-API:er. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.
Läsa från en dataström
Du kan använda Structured Streaming för att inkrementellt mata in data från datakällor som stöds. Vanliga datakällor omfattar följande:
- Datafiler i molnobjektlagring. Se Vad är automatisk inläsare?.
- Meddelandebussar och köer. Se Konfigurera strömmande datakällor.
- Delta Lake. Se Delta table streaming reads and writes (Delta table streaming reads and writes).
Varje datakälla innehåller ett antal alternativ för att ange hur du läser in batchar med data. Under läsarkonfigurationen kan du behöva konfigurera alternativ för att göra följande:
- Ange datakällan eller formatet (till exempel filtyp, avgränsare och schema).
- Konfigurera åtkomst till källsystem (till exempel portinställningar och autentiseringsuppgifter).
- Ange var du ska börja i en ström (till exempel Kafka-förskjutningar eller läsning av alla befintliga filer).
- Styr hur mycket data som bearbetas i varje batch (till exempel maximala förskjutningar, filer eller byte per batch). Se Konfigurera batchstorlek för strukturerad direktuppspelning på Azure Databricks.
Skriva till en datamottagare
En datamottagare är målet för en direktuppspelningsskrivningsåtgärd. Vanliga mottagare som används i strömningsarbetsbelastningar i Azure Databricks är följande:
- Data Lake
- Meddelandebussar och köer
- Nyckelvärdesdatabaser
Precis som med datakällor ger de flesta datamottagare ett antal alternativ för att styra hur data skrivs till målsystemet. Under skrivarkonfigurationen anger du följande alternativ:
- Utdataläge (lägg till som standard). Se Välj ett utdataläge för Strukturerad direktuppspelning.
- En kontrollpunktsplats (krävs för varje skrivare). Se Kontrollpunkter för strukturerad strömning.
- Utlösarintervall. Se Konfigurera utlösarintervall för strukturerad direktuppspelning.
- Alternativ som anger datamottagaren eller formatet (till exempel filtyp, avgränsare och schema).
- Alternativ som konfigurerar åtkomst till målsystem (till exempel portinställningar och autentiseringsuppgifter).