Verstehen und Anpassen von Stream Analytics-Streamingeinheiten

Verstehen von Streamingeinheit und Streamingknoten

Streamingeinheiten (SUs) stellen die Computerressourcen dar, die einen Stream Analytics-Auftrag ausführen. Je höher die SU-Anzahl, desto mehr CPU- und Arbeitsspeicherressourcen weisen Sie für Ihren Job zu. Mit dieser Kapazität können Sie sich auf die Abfragelogik konzentrieren. Zudem wird der Bedarf zur Verwaltung der Hardware abstrahiert, um Ihren Stream Analytics-Auftrag rechtzeitig auszuführen.

Azure Stream Analytics unterstützt zwei Streamingeinheitsstrukturen: SU V1 (wird eingestellt) und SU V2 (empfohlen).

Das SU V1-Modell ist das ursprüngliche Angebot von Azure Stream Analytics, bei dem alle 6 SUs einem einzelnen Streamingknoten für einen Auftrag entsprechen. Aufträge können auch mit 1 und 3 SUs ausgeführt werden, und sie entsprechen fraktionalen Streamingknoten. Die Skalierung erfolgt in Schritten von 6 über 6 SU-Jobs hinaus auf 12, 18, 24 und darüber hinaus durch Hinzufügen weiterer Streaming-Knoten, die verteilte Rechenressourcen bereitstellen.

Das SU V2-Modell (empfohlen) ist eine vereinfachte Struktur mit günstigen Preisen für dieselben Computeressourcen. Im SU V2-Modell entspricht 1 SU V2 einem Streamingknoten für Ihren Auftrag. 2 SU V2s entsprechen 2 Streamingknoten, 3 bis 3 usw. Aufträge mit 1/3 und 2/3 SU V2 sind auch mit einem Streamingknoten verfügbar, aber nur mit einem Bruchteil der Computeressourcen. Die 1/3- und 2/3-SU V2-Aufträge bieten eine kostengünstige Option für Workloads, die eine kleinere Skalierung erfordern.

Die folgende Tabelle zeigt die zugrunde liegende Rechenleistung für V1- und V2-Streamingeinheiten:

Informationen zu SU-Preisen finden Sie auf der Seite mit den Azure Stream Analytics-Preisen.

Verstehen der Konvertierung von Streamingeinheiten und deren Anwendung

Das System konvertiert Streamingeinheiten automatisch von der REST-API-Ebene in die Benutzeroberfläche (Azure-Portal und Visual Studio Code). Diese Konvertierung wird auch im Aktivitätsprotokoll angezeigt , wobei Streamingeinheitswerte von den Werten auf der Benutzeroberfläche abweichen. Dieses Verhalten ist beabsichtigt. REST-API-Felder sind auf ganzzahlige Werte beschränkt, aber Stream Analytics-Aufträge unterstützen Bruchknoten (1/3 und 2/3 Streamingeinheiten). Die Azure Stream Analytics-Benutzeroberfläche zeigt Knotenwerte als 1/3, 2/3, 1, 2, 3 usw. an, während das Back-End (Aktivitätsprotokolle, REST-API-Ebene) die gleichen Werte mit 10 multipliziert mit 3, 7, 10, 20 bzw. 30 anzeigt.

Standard	Standard V2 (Benutzeroberfläche)	Standard V2 (Back-End wie Protokolle, Rest-API usw.)
1	1/3	3
3	2/3	7
6	1	10
12	2	20
18	3	30
...	...	...

Diese Konvertierung vermittelt die gleiche Granularität und beseitigt die Dezimalstelle auf der API-Ebene für V2 Stock Keeping Units (SKUs). Diese Konvertierung erfolgt automatisch und hat keine Auswirkungen auf die Leistung Ihres Jobs.

Verstehen von Verbrauch und Arbeitsspeicherauslastung

Um eine Streamingverarbeitung mit geringer Latenz zu erreichen, führen Azure Stream Analytics-Aufträge (ASA) die gesamte Verarbeitung im Arbeitsspeicher durch. Wenn der Speicherplatz für den Job ausgeht, schlägt der Streamingauftrag fehl. Daher ist es für einen Produktionsauftrag wichtig, die Ressourcennutzung eines Streamingauftrags zu überwachen und sicherzustellen, dass genügend Ressourcen zugeordnet sind, damit die Aufträge 24/7 ausgeführt werden.

Die Nutzungsmetrik der Streamingeinheit in Prozent, die von 0 % bis 100 % reicht, zeigt die Arbeitsspeichernutzung Ihrer Workload auf. Bei einem Streamingauftrag mit minimalem Ressourcenbedarf liegt die Metrik in der Regel zwischen 10 % und 20 %. Wenn die prozentuale Nutzung der Streamingeinheiten hoch (über 80 Prozent) ist oder Eingabeereignisse in den Rückstand geraten (auch mit einer niedrigen prozentualen Nutzung der Streamingeinheit, da die CPU-Auslastung nicht angezeigt wird), benötigt Ihr Workload wahrscheinlich mehr Computeressourcen, sodass Sie die Anzahl der Streamingeinheiten erhöhen müssen. Am besten bleibt die SU-Metrik unter 80 %, um auf gelegentliche Spitzen vorbereitet zu sein. Für den Fall einer größeren Anzahl von Workloads und Streamingeinheiten können Sie auch eine 80-Prozent-Warnung für die Metrik der Nutzung der Streamingeinheiten einrichten. Außerdem können Sie mithilfe der Metriken zur Verzögerung des Wasserzeichens und den im Backlog erfassten Ereignissen ermitteln, ob eine Auswirkung vorliegt.

Konfigurieren von Stream Analytics-Streamingeinheiten (SUs)

Melden Sie sich beim Azure-Portalan.
Suchen Sie in der Liste der Ressourcen nach dem zu skalierenden Stream Analytics-Auftrag, und öffnen Sie ihn anschließend.
Wählen Sie auf der Auftragsseite unter der Überschrift Konfigurieren die Option Skalieren aus. Beim Erstellen eines Auftrags ist „1“ die Standardanzahl von SUs.

Wählen Sie die SU-Option in der Dropdownliste aus, um die SUs für den Auftrag festzulegen. Sie sind auf einen bestimmten SU-Bereich beschränkt.
Sie können die Anzahl der Ihrem Auftrag zugeordneten SUs ändern, wenn er gerade ausgeführt wird. Möglicherweise sind Sie auf die Auswahl aus einer Reihe von SU-Werten beschränkt, wenn der Auftrag ausgeführt wird, wenn ihr Auftrag eine nicht partitionierte Ausgabe verwendet oder eine mehrstufige Abfrage mit unterschiedlichen PARTITION BY-Werten aufweist.

Überwachung der Jobleistung

Mithilfe des Azure-Portals können Sie die leistungsbezogenen Metriken eines Auftrags nachverfolgen. Weitere Informationen zur Metrikdefinition finden Sie unter Azure Stream Analytics-Auftragsmetriken. Weitere Informationen zur Metriküberwachung im Portal finden Sie unter Überwachen des Stream Analytics-Auftrags mit dem Azure-Portal.

Berechnen Sie den erwarteten Durchsatz der Arbeitslast. Für den Fall, dass der Durchsatz kleiner als erwartet ist, optimieren Sie die Eingabepartition und die Abfrage, und fügen Sie dem Auftrag zusätzliche SUs hinzu.

Wie viele Premium-Streamingeinheiten sind für einen Auftrag erforderlich?

Die Anzahl der erforderlichen SUs hängt von der Partitionskonfiguration für die Eingaben und die Abfrage ab, die Sie innerhalb des Auftrags definieren. Auf der Seite Skalieren können Sie die richtige Anzahl von SUs festlegen. Weisen Sie mehr SUs zu, als Sie glauben, dass Sie sie benötigen. Das Stream Analytics-Verarbeitungsmodul optimiert die Latenz und den Durchsatz zum Kosten der Zuweisung zusätzlicher Arbeitsspeicher.

Im Allgemeinen beginnen Sie mit 1 SU V2 für Abfragen, die PARTITION BY nicht verwenden. Suchen Sie dann die beste Zahl nach Versuch und Irrtum. Ändern Sie die Anzahl der SUs, nachdem Sie repräsentative Datenmengen übergeben haben, und überprüfen Sie die Kennzahl SU% Utilization. Die maximale Anzahl von Streamingeinheiten, die ein Stream Analytics-Auftrag verwenden kann, hängt von der Anzahl der Schritte in der Abfrage ab, die für den Auftrag definiert ist, und der Anzahl der Partitionen in jedem Schritt. Weitere Informationen zu diesen Grenzwerten finden Sie hier.

Weitere Informationen zum Auswählen der richtigen Anzahl von SUs finden Sie unter Skalieren von Azure Stream Analytics-Aufträgen, um den Durchsatz zu erhöhen.

Hinweis

Die Anzahl der SUs, die ein Auftrag benötigt, hängt von der Partitionskonfiguration für die Eingaben und von der Abfrage ab, die Sie für den Auftrag definieren. Sie können die für Ihr Kontingent maximal festgelegte Anzahl von SUs für einen Auftrag auswählen. Informationen zum Azure Stream Analytics-Abonnementkontingent finden Sie unter Stream Analytics-Grenzwerte. Wenn Sie die SUs für Ihre Abonnements über dieses Kontingent hinaus erhöhen möchten, wenden Sie sich an den Microsoft-Support. Gültige Werte für SUs pro Auftrag sind 1/3, 2/3, 1, 2, 3 usw.

Faktoren für die Erhöhung der SU-Nutzung in %

Temporale (zeitlich orientierte) Abfrageelemente sind die Kerngruppe der zustandsbehafteten Operatoren, die von Stream Analytics bereitgestellt werden. Stream Analytics verwaltet den Status dieser Vorgänge intern in Ihrem Auftrag. Er verwaltet die Speichernutzung, das Erstellen von Prüfpunkten zur Resilienzsteigerung und die Zustandswiederherstellung während Dienst-Upgrades. Auch wenn Stream Analytics die Zustände vollständig verwaltet, sollten Sie viele Empfehlungen für bewährte Methoden in Betracht ziehen.

Ein Auftrag mit komplexer Abfragelogik kann eine hohe SU-% Auslastung aufweisen, auch wenn keine kontinuierlichen Eingabeereignisse empfangen werden. Dies kann nach einer plötzlichen Spitze bei den Eingabe- und Ausgabeereignissen auftreten. Möglicherweise wird der Zustand des Auftrags im Arbeitsspeicher weiterhin beibehalten, wenn die Abfrage komplex ist.

Vorübergehende Fehler oder vom System initiierte Upgrades können dazu führen, dass SU-%-Auslastung plötzlich für einen kurzen Zeitraum auf 0 zurückgeht, bevor sie zu erwarteten Niveaus zurückkehren. Wenn Sie die Anzahl der Streamingeinheiten für einen Auftrag erhöhen, wird die Speichereinheitennutzung in Prozent möglicherweise nicht verringert, wenn Ihre Abfrage nicht vollständig parallel verläuft.

Wenn Sie die Auslastung über einen bestimmten Zeitraum vergleichen, verwenden Sie Ereignisratenmetriken. Die InputEvents- und OutputEvents-Metriken zeigen, wie viele Ereignisse gelesen und verarbeitet wurden. Metriken wie Deserialisierungsfehler geben die Anzahl der Fehlerereignisse an. Wenn die Anzahl von Ereignissen pro Zeiteinheit zunimmt, steigt in den meisten Fällen der SU%-Wert.

Zustandsbehaftete Abfragelogik in temporalen Elementen

Eine der einzigartigen Funktionen von Azure Stream Analytics-Aufträgen ist die zustandsbehaftete Verarbeitung, z. B. Fensteraggregate, zeitliche Verknüpfungen und zeitliche Analysefunktionen. Die einzelnen Operatoren enthalten Zustandsinformationen. Die maximale Fenstergröße für diese Abfrageelemente beträgt sieben Tage.

Der Begriff der temporalen Fenster kommt in mehreren Stream Analytics-Abfrageelementen vor:

Fensterbasierte Aggregate: GROUP BY von rollierenden, springenden und gleitenden Fenstern
Zeitliche Verknüpfungen: JOIN mit DATEDIFF Funktion
Zeitliche Analysefunktionen: ISFIRST, LAST, und LAG mit LIMIT DURATION

Die folgenden Faktoren beeinflussen den belegten Arbeitsspeicher (Teil der Metrik „Streamingeinheit“) von Stream Analytics-Aufträgen:

Aggregate im Fenstermodus

Der belegte Arbeitsspeicher (Zustandsgröße) für ein Aggregat im Fenstermodus ist nicht immer direkt proportional zur Fenstergröße. Der belegte Arbeitsspeicher verhält sich stattdessen proportional zur Kardinalität der Daten oder der Anzahl der Gruppen in jedem Zeitfenster.

Beispiel: In der folgenden Abfrage ist die mit clusterid verknüpfte Zahl die Kardinalität der Abfrage.

SELECT count(*)
FROM input 
GROUP BY  clusterid, tumblingwindow (minutes, 5)

Um Probleme zu beheben, die durch hohe Kardinalität in der vorherigen Abfrage verursacht werden, senden Sie Ereignisse an Event Hubs partitioniert von clusterid. Skalieren Sie die Abfrage, indem sie es dem System ermöglicht, jede Eingabepartition separat zu verarbeiten, indem PARTITION BY verwendet wird, wie im folgenden Beispiel gezeigt:

SELECT count(*) 
FROM input PARTITION BY PartitionId
GROUP BY PartitionId, clusterid, tumblingwindow (minutes, 5)

Sobald die Abfrage partitioniert ist, wird sie über mehrere Knoten verteilt. Daher wird die Anzahl der clusterid Werte, die in jeden Knoten eingehen, reduziert, wodurch die Kardinalität des GROUP BY Operators reduziert wird.

Partitionieren Sie Event Hubs durch den Gruppierungsschlüssel, um die Notwendigkeit eines Reduzierungsschritts zu vermeiden. Weitere Informationen finden Sie unter Übersicht über Event Hubs.

Temporale Verknüpfungen

Der von einer zeitlichen Verknüpfung verbrauchte Speicher (Zustandsgröße) ist proportional zur Anzahl der Ereignisse im zeitlichen Verzweigungsraum der Verknüpfung. Diese Zahl entspricht der Ereigniseingaberate, multipliziert mit der Wackelraumgröße. Mit anderen Worten, der von Verknüpfungen verbrauchte Speicher ist proportional zum DatumSDiff-Zeitbereich multipliziert mit der durchschnittlichen Ereignisrate.

Die Anzahl nicht übereinstimmender Ereignisse in der Verknüpfung wirkt sich auf die Speicherauslastung für die Abfrage aus. Die folgende Abfrage sucht nach den Anzeigenaufrufen, die Klicks generieren:

SELECT clicks.id
FROM clicks 
INNER JOIN impressions ON impressions.id = clicks.id AND DATEDIFF(hour, impressions, clicks) between 0 AND 10.

In diesem Beispiel ist es möglich, dass viele Anzeigen angezeigt werden und nur wenige Personen darauf klicken. Sie müssen alle Ereignisse innerhalb des Zeitfensters berücksichtigen. Der belegte Arbeitsspeicher ist proportional zu Fenstergröße und Ereignisrate.

Um dieses Verhalten zu korrigieren, senden Sie Ereignisse an durch die Verknüpfungsschlüssel (in diesem Fall IDs) partitionierte Event Hubs, und skalieren Sie die Abfrage horizontal, indem Sie dem System die separate Verarbeitung jeder Eingangspartition mit PARTITION BY ermöglichen, wie im Folgenden gezeigt:

SELECT clicks.id
FROM clicks PARTITION BY PartitionId
INNER JOIN impressions PARTITION BY PartitionId 
ON impression.PartitionId = clicks.PartitionId AND impressions.id = clicks.id AND DATEDIFF(hour, impressions, clicks) between 0 AND 10

Nachdem Sie die Abfrage partitionieren, verteilen Sie sie über mehrere Knoten. Daher verringern Sie die Anzahl der Ereignisse, die in jeden Knoten eingehen, und verringern die Größe des Zustands, der im Verknüpfungsfenster beibehalten wird.

Temporale Analysefunktionen

Der von einer zeitlichen Analysefunktion verbrauchte Speicher (Zustandsgröße) ist proportional zur Ereignisrate, die mit der Dauer multipliziert wird. Der von analysefunktionen verbrauchte Arbeitsspeicher ist nicht proportional zur Fenstergröße, sondern zur Partitionsanzahl in jedem Zeitfenster.

Die Wiederherstellung weist Ähnlichkeiten mit der temporalen Verknüpfung auf. Sie können die Abfrage mithilfe von PARTITION BY skalieren.

Puffer für Ereignisse in falscher Reihenfolge

Sie können die Größe eines Puffers für Ereignisse in falscher Reihenfolge im Konfigurationsbereich „Ereignisreihenfolge“ konfigurieren. Der Puffer speichert Eingaben für die Dauer des Fensters und ordnet sie neu. Die Größe des Puffers ist proportional zur Ereigniseingaberate multipliziert mit der Größe des Out-of-Order-Fensters. Die Standardfenstergröße beträgt 0.

Um einen Überlauf des Puffers in einer anderen Reihenfolge zu beheben, skalieren Sie die Abfrage mit PARTITION BY horizontal hoch. Nach dem Partitionieren der Abfrage wird sie auf mehrere Knoten verteilt. Infolgedessen verringert sich die Anzahl der eingehenden Ereignisse auf den einzelnen Knoten, wodurch wiederum die Anzahl der Ereignisse in jedem Reihenfolgepuffer reduziert wird.

Anzahl von Eingabepartitionen

Jede Auftragseingabepartition verfügt über einen Puffer. Je größer die Anzahl der Eingabepartitionen ist, desto mehr Ressourcen verbraucht der Auftrag. Für jede Streamingeinheit kann Azure Stream Analytics ungefähr 7 MB/s der Eingabe verarbeiten. Daher können Sie eine Optimierung vornehmen, indem Sie die Anzahl der Stream Analytics-Streamingeinheiten an die Anzahl von Partitionen in Ihrem Event Hub anpassen.

Typischerweise ist ein Job, der mit einer Streaming-Einheit von einem Drittel konfiguriert ist, für einen Event Hub mit zwei Partitionen ausreichend (was das Minimum für einen Event Hub ist). Wenn der Event Hub mehr Partitionen aufweist, verbraucht Ihr Stream Analytics-Auftrag mehr Ressourcen, verwendet jedoch nicht unbedingt den zusätzlichen Durchsatz, der von Event Hubs bereitgestellt wird.

Für einen Auftrag mit einer V2-Streamingeinheit benötigen Sie möglicherweise 4 oder 8 Partitionen vom Event Hub. Vermeiden Sie jedoch zu viele unnötige Partitionen, da sie eine übermäßige Ressourcenauslastung verursachen. Beispiel: Ein Event Hub mit mindestens 16 Partitionen in einem Stream Analytics-Auftrag mit 1 Streamingeinheit.

Referenzdaten

Azure Stream Analytics lädt Referenzdaten zum schnellen Nachschlagen in den Arbeitsspeicher. Bei der aktuellen Implementierung wird bei jedem Verknüpfungsvorgang mit Verweisdaten eine Kopie der Verweisdaten im Speicher beibehalten, auch wenn Sie dieselben Verweisdaten mehrmals verknüpfen müssen. Bei Abfragen mit PARTITION BY behält jede Partition eine Kopie der Verweisdaten bei, sodass die Partitionen vollständig entkoppelt sind. Durch den Multiplikationseffekt kann die Speicherverwendung schnell in die Höhe schießen, wenn Sie Verweisdaten mehrmals mit mehreren Partitionen verknüpfen.

Verwenden von UDF-Funktionen

Wenn Sie eine UDF-Funktion hinzufügen, lädt Azure Stream Analytics die JavaScript-Runtime in den Arbeitsspeicher, was sich auf die prozentuale SU auswirkt.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2026-02-20