Förstå och justera strömningsenheter för Stream Analytics

Förstå streamingenhet och streamingnod

Strömningsenheter (SUs) representerar de databehandlingsresurser som kör ett Stream Analytics-jobb. Ju högre antal SUs, desto fler processor- och minnesresurser allokeras för jobbet. Med den här kapaciteten kan du fokusera på frågelogik och sammanfatta behovet av att hantera maskinvaran för att köra Stream Analytics-jobbet i rätt tid.

Azure Stream Analytics stöder två strömningsenhetsstrukturer: SU V1 (som ska vara inaktuell) och SU V2(rekommenderas).

SU V1-modellen är Azure Stream Analytics' ursprungliga erbjudande där varje 6 SU:er motsvarar en enda strömningsnod för ett jobb. Jobb kan också köras med 1 och 3 SUs, och de motsvarar fraktionella streamingnoder. Skalning sker i steg om 6 fler än 6 SU-jobb, till 12, 18, 24 och senare genom att lägga till fler direktuppspelningsnoder som tillhandahåller distribuerade databehandlingsresurser.

SU V2-modellen (rekommenderas) är en förenklad struktur med bra priser för samma beräkningsresurser. I SU V2-modellen motsvarar 1 SU V2 en direktuppspelningsnod för ditt jobb. 2 SU V2s motsvarar 2 direktuppspelningsnoder, 3 till 3 och så vidare. Jobb med 1/3 och 2/3 SU V2s är också tillgängliga med en direktuppspelningsnod men en bråkdel av databehandlingsresurserna. 1/3- och 2/3 SU V2-jobben är ett kostnadseffektivt alternativ för arbetsbelastningar som kräver mindre skala.

I följande tabell visas den underliggande beräkningskraften för V1- och V2-strömningsenheter:

Information om SU-priser finns på sidan med priser för Azure Stream Analytics.

Förstå konverteringar av streamingenheter och var de gäller

Systemet konverterar automatiskt strömmande enheter från REST API-lagret till användargränssnittet (Azure-portalen och Visual Studio Code). Du ser även den här konverteringen i aktivitetsloggen , där strömningsenhetsvärdena skiljer sig från värdena i användargränssnittet. Det här beteendet är avsiktligt. REST API-fält är begränsade till heltalsvärden, men Stream Analytics-jobb stöder bråknoder (1/3- och 2/3-strömningsenheter). Azure Stream Analytics-användargränssnittet visar nodvärden som 1/3, 2/3, 1, 2, 3 och så vidare, medan serverdelen (aktivitetsloggar, REST API-lager) visar samma värden multiplicerade med 10 som 3, 7, 10, 20 respektive 30.

Standard	Standard V2 (UI)	Standard V2 (serverdel, till exempel loggar, Rest API osv.)
1	1/3	3
3	2/3	7
6	1	10
12	2	20
18	3	30
...	...	...

Den här konverteringen förmedlar samma kornighet och eliminerar decimaltecknet i API-lagret för V2-lagerhållningsenheter (SKU:er). Den här konverteringen är automatisk och påverkar inte jobbets prestanda.

Förstå förbrukning och minnesanvändning

För att minimera svarstiderna vid bearbetningen av dataströmmar utför Azure Stream Analytics-jobb all bearbetning i minnet. När jobbet får slut på minne misslyckas strömningsjobbet. För ett produktionsjobb är det därför viktigt att övervaka resursanvändningen för ett direktuppspelningsjobb och se till att det finns tillräckligt med resurser allokerade för att hålla jobben igång dygnet innan.

Användningsmåttet SU % som sträcker sig från 0 % till 100 %, beskriver minnesförbrukningen för din arbetsbelastning. För ett direktuppspelningsjobb med minimalt fotavtryck är det här måttet vanligtvis mellan 10 % och 20 %. Om SU%-användningen är hög (över 80 %), eller om indatahändelser blir eftersläppta (även med en låg SU%-användning eftersom den inte visar CPU-användning), kräver din arbetsbelastning sannolikt fler beräkningsresurser, vilket kräver att du ökar antalet strömningsenheter. Det är bäst att hålla SU-måttet under 80 % för att ta hänsyn till tillfälliga toppar. Om du vill reagera på ökade arbetsbelastningar och öka strömningsenheterna bör du överväga att ange en avisering på 80 % för måttet SU-användning. Du kan också använda mått för vattenstämpelfördröjning och eftersläppta händelser för att se om det finns en påverkan.

Konfigurera Stream Analytics-strömningsenheter (SUS)

Logga in på Azure-portalen.
I listan över resurser hittar du det Stream Analytics-jobb som du vill skala och öppnar det sedan.
På jobbsidan går du till rubriken Konfigurera och väljer Skala. Standardantalet SU:er är 1 vid skapande av ett jobb.

Välj alternativet SU i listrutan för att ange SUs för jobbet. Du är begränsad till ett specifikt SU-intervall.
Du kan ändra antalet SUs som tilldelats ditt jobb medan det körs. Du kan vara begränsad till att välja från en uppsättning SU-värden när jobbet körs om jobbet använder icke-partitionerade utdata eller har en fråga i flera steg med olika PARTITION BY-värden.

Övervaka jobbprestanda

Med hjälp av Azure-portalen kan du spåra prestandarelaterade mått för ett jobb. Mer information om måttdefinitionen finns i Jobbmått för Azure Stream Analytics. Mer information om måttövervakning i portalen finns i Övervaka Stream Analytics-jobb med Azure-portalen.

Beräkna det förväntade dataflödet för arbetsbelastningen. Om dataflödet är mindre än förväntat justerar du indatapartitionen, finjusterar frågan och lägger till SUs i jobbet.

Hur många SU:er behövs för ett jobb?

Antalet nödvändiga SUS:er beror på partitionskonfigurationen för indata och frågan som du definierar i jobbet. På sidan Scale kan du ange rätt antal SUs. Allokera fler SUS:er än du tror att du behöver. Stream Analytics-bearbetningsmotorn optimerar för svarstid och dataflöde på bekostnad av allokering av extra minne.

I allmänhet börjar du med 1 SU V2 för frågor som inte använder PARTITION BY. Hitta sedan det bästa antalet genom försök och misstag. Ändra antalet SUs efter att du har passerat representativa mängder data och granska mätvärdet för SU% Utilization. Det maximala antalet strömmande enheter som ett Stream Analytics-jobb kan använda beror på antalet steg i frågan som definierats för jobbet och antalet partitioner i varje steg. Du kan läsa mer om gränserna här.

Mer information om hur du väljer rätt antal SUs finns i Skala Azure Stream Analytics-jobb för högre kapacitet.

Anmärkning

Antalet SUS:er som ett jobb behöver beror på partitionskonfigurationen för indata och på frågan som du definierar för jobbet. Du kan välja upp till din kvot i SUs för ett jobb. Information om Prenumerationskvoten för Azure Stream Analytics finns i Stream Analytics-gränser. Kontakta Microsoft Support om du vill öka antalet SU:er för dina prenumerationer utöver den här kvoten. Giltiga värden för SUs per jobb är 1/3, 2/3, 1, 2, 3 och så vidare.

Faktorer som ökar den procentuella användningen av SU:er

Temporala (tidsorienterade) frågeelement är den grundläggande uppsättningen tillståndskänsliga operatorer som tillhandahålls av Stream Analytics. Stream Analytics hanterar tillståndet för dessa åtgärder internt åt dig. Den hanterar minnesförbrukning, kontrollpunkter för återhämtning och tillståndsåterställning under tjänstuppgraderingar. Även om Stream Analytics hanterar tillstånden fullt ut bör du överväga många rekommendationer för bästa praxis.

Ett jobb med komplex frågelogik kan ha hög SU-% användning även när det inte kontinuerligt tar emot indatahändelser. Det kan inträffa efter en plötslig ökning av in- och utdatahändelser. Jobbet kan fortsätta att behålla tillståndet i minnet om frågan är komplex.

Tillfälliga fel eller systeminitierade uppgraderingar kan orsaka att SU-% användning plötsligt sjunker till 0 under en kort period innan de återgår till förväntade nivåer. Att öka antalet strömningsenheter för ett jobb kanske inte minskar användningen av SU% om din fråga inte körs helt parallellt.

När du jämför användningen över en tidsperiod använder du mått för händelsefrekvens. Måtten InputEvents och OutputEvents visar hur många händelser som lästes och bearbetades. Mått som deserialiseringsfel anger antalet felhändelser. När antalet händelser per tidsenhet ökar ökar SU% i de flesta fall.

Tillståndskänslig frågelogik i temporala element

En av de unika funktionerna i Azure Stream Analytics-jobb är tillståndskänslig bearbetning, till exempel fönsteraggregeringar, temporala kopplingar och temporala analysfunktioner. Var och en av dessa operatorer behåller tillståndsinformation. Den maximala fönsterstorleken för dessa frågeelement är sju dagar.

Begreppet temporalfönster visas i flera Stream Analytics-frågeelement:

Fönsteraggregat: GROUP BY av glidande, hoppande och skjutbara fönster
Temporala kopplingar: JOIN med DATEDIFF funktionen
Temporala analysfunktioner: ISFIRST, LASToch LAG med LIMIT DURATION

Följande faktorer påverkar det minne som används (en del av måttet för strömningsenheter) av Stream Analytics-jobb:

Fönsterfunktionaggregat

Det förbrukade minnet (tillståndsstorleken) för ett fönsteraggregat är inte alltid direkt proportionellt mot fönsterstorleken. I stället är det förbrukade minnet proportionellt mot datans kardinalitet eller antalet grupper i varje tidsfönster.

I följande fråga är till exempel det tal som är associerat med clusterid frågans kardinalitet.

SELECT count(*)
FROM input 
GROUP BY  clusterid, tumblingwindow (minutes, 5)

Om du vill minimera problem som orsakas av hög kardinalitet i föregående fråga skickar du händelser till Event Hubs som partitionerats av clusterid. Skala ut frågan genom att låta systemet bearbeta varje indatapartition separat med hjälp av PARTITION BY enligt följande exempel:

SELECT count(*) 
FROM input PARTITION BY PartitionId
GROUP BY PartitionId, clusterid, tumblingwindow (minutes, 5)

När frågan har partitionerats sprids den ut över flera noder. Därför minskas antalet clusterid värden som kommer in i varje nod, vilket minskar operatorns GROUP BY kardinalitet.

Partitionera händelsehubbar efter grupperingsnyckeln för att undvika behovet av ett reduktionssteg. Mer information finns i Översikt över Event Hubs.

Tidsmässiga kopplingar

Minnet som förbrukas (tillståndsstorlek) av en tidsmässig koppling är proportionellt mot antalet händelser i anslutningens tidsmässiga svängrum. Det här talet är lika med händelseinmatningshastigheten multiplicerat med den svängiga rumsstorleken. Med andra ord är det minne som förbrukas av kopplingar proportionellt mot DateDiff-tidsintervallet multiplicerat med den genomsnittliga händelsefrekvensen.

Antalet omatchade händelser i kopplingen påverkar minnesanvändningen för frågan. Följande fråga söker efter annonsvisningar som genererar klick:

SELECT clicks.id
FROM clicks 
INNER JOIN impressions ON impressions.id = clicks.id AND DATEDIFF(hour, impressions, clicks) between 0 AND 10.

I det här exemplet är det möjligt att många annonser visas och att få personer klickar på dem. Du måste behålla alla händelser i tidsfönstret. Förbrukat minne beror på tidsperiodens längd och händelsens frekvens.

För att åtgärda det här beteendet skickar du händelser till Event Hubs som partitionerats av kopplingsnycklarna (ID i det här fallet) och skalar ut frågan genom att låta systemet bearbeta varje indatapartition separat med PARTITION BY enligt följande:

SELECT clicks.id
FROM clicks PARTITION BY PartitionId
INNER JOIN impressions PARTITION BY PartitionId 
ON impression.PartitionId = clicks.PartitionId AND impressions.id = clicks.id AND DATEDIFF(hour, impressions, clicks) between 0 AND 10

När du har partitionerad frågan sprider du ut den över flera noder. Därför minskar du antalet händelser som kommer till varje nod och minskar storleken på tillståndet som sparas i kopplingsfönstret.

Temporala analysfunktioner

Det minne som förbrukas (tillståndsstorlek) med en tidsanalysfunktion är proportionell mot händelsefrekvensen multiplicerat med varaktigheten. Minnet som förbrukas av analysfunktioner är inte proportionellt mot fönsterstorleken, utan snarare till antalet partitioner i varje tidsfönster.

Återställningen liknar temporal sammankoppling. Du kan skala ut frågan med hjälp av PARTITION BY.

Slut på ordningsbuffert

Du kan konfigurera buffertstorleken för oordnade händelser i konfigurationsfönstret för händelseordning. Bufferten innehåller indata under hela fönstret och ordnar om dem. Buffertens storlek är proportionell mot händelseindatahastigheten multiplicerad med storleken på out of order-fönstret. Standardfönstrets storlek är 0.

Om du vill åtgärda överflödet av out-of-order-bufferten skalar du ut frågan med PARTITION BY. När frågan har partitionerats ut sprids den ut över flera noder. Därför minskas antalet händelser som kommer in i varje nod, vilket minskar antalet händelser i varje omordningsbuffert.

Antal inmatningspartitioner

Varje partition för jobbindata har en buffert. Ju större antal indatapartitioner, desto fler resurser förbrukar jobbet. För varje strömningsenhet kan Azure Stream Analytics bearbeta ungefär 7 MB/s indata. Därför kan du optimera genom att matcha antalet Stream Analytics-strömningsenheter med antalet partitioner i händelsehubben.

Vanligtvis räcker det med ett jobb som konfigurerats med en tredjedels strömningsenhet för en händelsehubb med två partitioner (vilket är det minsta för händelsehubben). Om händelsehubben har fler partitioner förbrukar Stream Analytics-jobbet fler resurser, men det använder inte nödvändigtvis det extra dataflöde som tillhandahålls av Event Hubs.

För ett jobb med en V2-strömningsenhet kan du behöva 4 eller 8 partitioner från händelsehubben. Undvik dock för många onödiga partitioner eftersom de orsakar överdriven resursanvändning. Till exempel en händelsehubb med 16 eller fler partitioner i ett Stream Analytics-jobb som har en streamingenhet.

Referensdata

Azure Stream Analytics läser in referensdata i minnet för snabb sökning. Med den aktuella implementeringen behåller varje kopplingsåtgärd med referensdata en kopia av referensdata i minnet, även om du ansluter med samma referensdata flera gånger. För frågor med PARTITION BY har varje partition en kopia av referensdata, så partitionerna är helt frikopplade. Med multiplikationseffekten kan minnesanvändningen snabbt bli mycket hög om du ansluter med referensdata flera gånger med flera partitioner.

Användning av UDF-funktioner

När du lägger till en UDF-funktion läser Azure Stream Analytics in JavaScript-körningen i minnet, vilket påverkar SU%.

Nästa steg

Feedback

Var den här sidan till hjälp?

Last updated on 2026-02-20