Vad är Apache Spark Structured Streaming?

Apache Spark Structured Streaming är en bearbetningsmotor nästan i realtid som erbjuder feltolerans från slutpunkt till slutpunkt med garantier för bearbetning exakt en gång med välbekanta Spark-API:er. Med Structured Streaming kan du uttrycka beräkningar på strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer. En översikt över Strukturerad direktuppspelning finns i Apache Sparks Programmeringsguide för Strukturerad direktuppspelning.

Mer information om hur du använder Structured Streaming med Unity Catalog finns i Använda Unity Catalog med strukturerad direktuppspelning.

Hur används Structured Streaming i Azure Databricks?

Structured Streaming är nära kopplat till Delta Lake för att erbjuda förbättrade funktioner för inkrementell databearbetning i stor skala i Databricks Lakehouse. Structured Streaming är kärntekniken i hjärtat av Databricks Auto Loader, samt Delta Live Tables.

Vilka strömmande källor och mottagare stöder Azure Databricks?

Databricks rekommenderar att du använder Auto Loader för att mata in filtyper som stöds från molnobjektlagring till Delta Lake. För ETL-pipelines rekommenderar Databricks att du använder Delta Live Tables (som använder Delta-tabeller och Strukturerad direktuppspelning). Du kan också konfigurera inkrementella ETL-arbetsbelastningar genom att strömma till och från Delta Lake-tabeller.

Förutom Delta Lake och Auto Loader kan Structured Streaming ansluta till meddelandetjänster som Apache Kafka.

Du kan också använda foreachBatch för att skriva till godtyckliga datamottagare med Structured Streaming.

Vad är bästa praxis för structured streaming i produktion?

Azure Databricks stöder ett antal gränsfunktioner som inte finns i Apache Spark för att hjälpa kunderna att få ut bästa möjliga prestanda av Structured Streaming. Läs mer om dessa funktioner och andra rekommendationer för produktionsöverväganden för strukturerad direktuppspelning.

Exempel

Introduktionsanteckningsböcker och notebook-filer som visar exempel på användningsfall finns i Mönster för strukturerad direktuppspelning i Azure Databricks.

API-referens

Azure Databricks rekommenderar följande Apache Spark API-referens som referensinformation om Strukturerad direktuppspelning: