Koncept för strukturerad direktuppspelning

Apache Spark Structured Streaming är en motor för bearbetning nära realtid som erbjuder feltolerans från början till slut med garantier om bearbetning exakt en gång med hjälp av de välbekanta Spark-API:erna. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.

En stegvis handledning finns i Kör ditt första strukturerade strömningsjobb.

Läsa från en dataström

Använd Structured Streaming för att inkrementellt mata in data från datakällor som stöds.

Feature	Beskrivning
Automatisk Laddare	Bearbeta nya datafiler stegvis och effektivt när de tas emot i molnlagringen.
Delta-tabell strömmande läs- och skrivprocesser	Använd Delta Lake-tabeller som strömmande källor och mottagarplatser med garantier för exakt-en-gång bearbetning.
Standardanslutningar	Anslut till meddelandebussar, köer och företagsprogram med hjälp av standardanslutningar.
Mikro-batstorlek	Begränsa indatahastigheter för att upprätthålla konsekventa batchstorlekar och förhindra bearbetningsfördröjningar.

Skriva till en datamottagare

Konfigurera hur Structured Streaming levererar data till målsystem.

Feature	Beskrivning
Kontrollpunkter	Lagra bearbetningstillstånd för att möjliggöra feltolerans och exakt-en-gång-leveranssemantik.
Utdataläge	Välj mellan tilläggs-, uppdaterings- och fullständiga lägen för tillståndskänsliga strömningsfrågor.
Utlösarintervall	Ange utlösarintervall för att balansera svarstid och kostnad för dina bearbetningskrav.
Realtidsläge i strukturerad direktuppspelning	Bearbeta data för realtidsarbetsbelastningar med svarstid från slutpunkt till slutpunkt så låg som fem millisekunder.

Tillståndskänslig och tillståndslös bearbetning

Tillståndslösa frågor bearbetar rader utan att behålla tillståndet. Tillståndsberoende frågor upprätthåller mellanliggande tillstånd för aggregeringar, kopplingar och deduplicering.

Feature	Beskrivning
Tillståndslösa strömningsfrågor	Optimera frågor som bearbetar data utan att underhålla mellanliggande tillstånd.
Vattenstämplar	Kontrollera hur länge Structured Streaming väntar på data som kommer sent i tillståndskänsliga åtgärder.
Tillståndskänslig direktuppspelning	Hantera aggregeringar, stream-stream-kopplingar och deduplicering med tillståndskänsliga operatorer.

Övervaka och hantera

Spåra frågeprestanda, tillämpa optimeringar och styra dataåtkomst för produktionsstrukturerade strömningsarbetsbelastningar.

Feature	Beskrivning
Övervaka med StreamingQueryListener	Spåra frågeförlopp och prestandamått med hjälp av Spark-användargränssnittet och lyssnar-API:et.
Hantera med Unity Catalog	Konfigurera Unity Catalog för strömmande arbetsbelastningar med styrning och åtkomstkontroll.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-11