Koncept för strukturerad direktuppspelning

Apache Spark Structured Streaming är en motor för bearbetning nära realtid som erbjuder feltolerans från början till slut med garantier om bearbetning exakt en gång med hjälp av de välbekanta Spark-API:erna. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.

En stegvis handledning finns i Kör ditt första strukturerade strömningsjobb.

Läsa från en dataström

Använd Structured Streaming för att inkrementellt mata in data från datakällor som stöds.

Feature Beskrivning
Automatisk Laddare Bearbeta nya datafiler stegvis och effektivt när de tas emot i molnlagringen.
Delta-tabell strömmande läs- och skrivprocesser Använd Delta Lake-tabeller som strömmande källor och mottagarplatser med garantier för exakt-en-gång bearbetning.
Standardanslutningar Anslut till meddelandebussar, köer och företagsprogram med hjälp av standardanslutningar.
Mikro-batstorlek Begränsa indatahastigheter för att upprätthålla konsekventa batchstorlekar och förhindra bearbetningsfördröjningar.

Skriva till en datamottagare

Konfigurera hur Structured Streaming levererar data till målsystem.

Feature Beskrivning
Kontrollpunkter Lagra bearbetningstillstånd för att möjliggöra feltolerans och exakt-en-gång-leveranssemantik.
Utdataläge Välj mellan tilläggs-, uppdaterings- och fullständiga lägen för tillståndskänsliga strömningsfrågor.
Utlösarintervall Ange utlösarintervall för att balansera svarstid och kostnad för dina bearbetningskrav.
Realtidsläge i strukturerad direktuppspelning Bearbeta data för realtidsarbetsbelastningar med svarstid från slutpunkt till slutpunkt så låg som fem millisekunder.

Tillståndskänslig och tillståndslös bearbetning

Tillståndslösa frågor bearbetar rader utan att behålla tillståndet. Tillståndsberoende frågor upprätthåller mellanliggande tillstånd för aggregeringar, kopplingar och deduplicering.

Feature Beskrivning
Tillståndslösa strömningsfrågor Optimera frågor som bearbetar data utan att underhålla mellanliggande tillstånd.
Vattenstämplar Kontrollera hur länge Structured Streaming väntar på data som kommer sent i tillståndskänsliga åtgärder.
Tillståndskänslig direktuppspelning Hantera aggregeringar, stream-stream-kopplingar och deduplicering med tillståndskänsliga operatorer.

Övervaka och hantera

Spåra frågeprestanda, tillämpa optimeringar och styra dataåtkomst för produktionsstrukturerade strömningsarbetsbelastningar.

Feature Beskrivning
Övervaka med StreamingQueryListener Spåra frågeförlopp och prestandamått med hjälp av Spark-användargränssnittet och lyssnar-API:et.
Hantera med Unity Catalog Konfigurera Unity Catalog för strömmande arbetsbelastningar med styrning och åtkomstkontroll.