Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Apache Spark Structured Streaming är en motor för bearbetning nära realtid som erbjuder feltolerans från början till slut med garantier om bearbetning exakt en gång med hjälp av de välbekanta Spark-API:erna. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.
En stegvis handledning finns i Kör ditt första strukturerade strömningsjobb.
Läsa från en dataström
Använd Structured Streaming för att inkrementellt mata in data från datakällor som stöds.
| Feature | Beskrivning |
|---|---|
| Automatisk Laddare | Bearbeta nya datafiler stegvis och effektivt när de tas emot i molnlagringen. |
| Delta-tabell strömmande läs- och skrivprocesser | Använd Delta Lake-tabeller som strömmande källor och mottagarplatser med garantier för exakt-en-gång bearbetning. |
| Standardanslutningar | Anslut till meddelandebussar, köer och företagsprogram med hjälp av standardanslutningar. |
| Mikro-batstorlek | Begränsa indatahastigheter för att upprätthålla konsekventa batchstorlekar och förhindra bearbetningsfördröjningar. |
Skriva till en datamottagare
Konfigurera hur Structured Streaming levererar data till målsystem.
| Feature | Beskrivning |
|---|---|
| Kontrollpunkter | Lagra bearbetningstillstånd för att möjliggöra feltolerans och exakt-en-gång-leveranssemantik. |
| Utdataläge | Välj mellan tilläggs-, uppdaterings- och fullständiga lägen för tillståndskänsliga strömningsfrågor. |
| Utlösarintervall | Ange utlösarintervall för att balansera svarstid och kostnad för dina bearbetningskrav. |
| Realtidsläge i strukturerad direktuppspelning | Bearbeta data för realtidsarbetsbelastningar med svarstid från slutpunkt till slutpunkt så låg som fem millisekunder. |
Tillståndskänslig och tillståndslös bearbetning
Tillståndslösa frågor bearbetar rader utan att behålla tillståndet. Tillståndsberoende frågor upprätthåller mellanliggande tillstånd för aggregeringar, kopplingar och deduplicering.
| Feature | Beskrivning |
|---|---|
| Tillståndslösa strömningsfrågor | Optimera frågor som bearbetar data utan att underhålla mellanliggande tillstånd. |
| Vattenstämplar | Kontrollera hur länge Structured Streaming väntar på data som kommer sent i tillståndskänsliga åtgärder. |
| Tillståndskänslig direktuppspelning | Hantera aggregeringar, stream-stream-kopplingar och deduplicering med tillståndskänsliga operatorer. |
Övervaka och hantera
Spåra frågeprestanda, tillämpa optimeringar och styra dataåtkomst för produktionsstrukturerade strömningsarbetsbelastningar.
| Feature | Beskrivning |
|---|---|
| Övervaka med StreamingQueryListener | Spåra frågeförlopp och prestandamått med hjälp av Spark-användargränssnittet och lyssnar-API:et. |
| Hantera med Unity Catalog | Konfigurera Unity Catalog för strömmande arbetsbelastningar med styrning och åtkomstkontroll. |