Direktuppspelning i Azure Databricks

Artikel
03/01/2024

Du kan använda Azure Databricks för datainmatning i nära realtid, bearbetning, maskininlärning och AI för strömmande data.

Azure Databricks erbjuder många optimzationer för strömning och inkrementell bearbetning. För de flesta direktuppspelnings- eller inkrementella databearbetnings- eller ETL-uppgifter rekommenderar Databricks Delta Live Tables. Se Vad är Delta Live Tables?.

De flesta inkrementella och strömmande arbetsbelastningar i Azure Databricks drivs av strukturerad direktuppspelning, inklusive Delta Live Tables och Auto Loader. Se Vad är automatisk inläsare?.

Delta Lake och Structured Streaming har nära integrering för att driva inkrementell bearbetning i Databricks lakehouse. Se Delta table streaming reads and writes (Delta table streaming reads and writes).

Information om modellservering i realtid finns i Modellservering med Azure Databricks.

Mer information om hur du skapar streaminglösningar på Azure Databricks-plattformen finns på produktsidan för dataströmning.

Azure Databricks har specifika funktioner för att arbeta med halvstrukturerade datafält som finns i Avro, protokollbuffertar och JSON-datanyttolaster. Mer information finns i:

Vad är strukturerad direktuppspelning?

Apache Spark Structured Streaming är en bearbetningsmotor nästan i realtid som erbjuder feltolerans från slutpunkt till slutpunkt med garantier för exakt en gång-bearbetning med hjälp av välbekanta Spark-API:er. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.

Om du inte har använt Structured Streaming tidigare läser du Kör din första strukturerade strömningsarbetsbelastning.

Information om hur du använder strukturerad direktuppspelning med Unity Catalog finns i Använda Unity Catalog med strukturerad direktuppspelning.

Vilka strömmande källor och mottagare stöder Azure Databricks?

Databricks rekommenderar att du använder Auto Loader för att mata in filtyper som stöds från molnobjektlagring till Delta Lake. För ETL-pipelines rekommenderar Databricks att du använder Delta Live Tables (som använder Delta-tabeller och strukturerad direktuppspelning). Du kan också konfigurera inkrementella ETL-arbetsbelastningar genom att strömma till och från Delta Lake-tabeller.

Förutom Delta Lake och Auto Loader kan strukturerad direktuppspelning ansluta till meddelandetjänster som Apache Kafka.

Du kan också använda foreachBatch för att skriva till godtyckliga datamottagare.

Ytterligare resurser

Apache Spark tillhandahåller en programmeringsguide för strukturerad direktuppspelning som innehåller mer information om strukturerad direktuppspelning.

För referensinformation om strukturerad direktuppspelning rekommenderar Databricks följande Apache Spark API-referenser: