Używanie ponownego partycjonowania do optymalizowania przetwarzania za pomocą usługi Azure Stream Analytics

W tym artykule pokazano, jak używać ponownego partycjonowania do skalowania zapytania w usłudze Azure Stream Analytics w scenariuszach, które nie mogą być w pełni zrównoleglone.

Może nie być możliwe użycie przetwarzania równoległego, jeśli:

Nie masz kontroli nad kluczem partycji dla strumienia wejściowego.
System źródłowy "rozrzuca" dane wejściowe na wiele partycji, które później należy scalić.

Ponowne partycjonowanie lub przetasowanie jest wymagane w przypadku przetwarzania danych w strumieniu, który nie jest podzielony na fragmenty zgodnie z naturalnym schematem danych wejściowych, takim jak PartitionId dla usługi Event Hubs. Podczas ponownego partycjonowania każdy fragment może być przetwarzany niezależnie, co umożliwia liniowe skalowanie potoku przesyłania strumieniowego.

Jak ponownie partycjonować

Możesz ponownie podzielić dane wejściowe na dwa sposoby:

Użyj oddzielnego zadania usługi Stream Analytics, które wykonuje repartycjonowanie
Użyj pojedynczego zadania, ale najpierw wykonaj ponowne partycjonowanie przed niestandardową logiką analizy

Tworzenie oddzielnego zadania usługi Stream Analytics w celu ponownego partycjonowania danych wejściowych

Można utworzyć zadanie, które odczytuje dane wejściowe i zapisuje do wyjścia centrum zdarzeń, używając klucza partycji. To centrum zdarzeń może następnie służyć jako dane wejściowe dla innego zadania usługi Stream Analytics, w którym implementujesz logikę analizy. Podczas konfigurowania tego wyjścia centrum zdarzeń w zadaniu należy określić klucz partycji, za pomocą którego usługa Stream Analytics będzie repartycjonować dane.

-- For compat level 1.2 or higher
SELECT * 
INTO output
FROM input

--For compat level 1.1 or lower
SELECT *
INTO output
FROM input PARTITION BY PartitionId

Repartycjonowanie danych wejściowych w ramach jednego zadania Stream Analytics

Możesz również wprowadzić krok w zapytaniu, który najpierw ponownie partycjonuje dane wejściowe, a następnie mogą one być używane przez inne kroki zapytania. Jeśli na przykład chcesz ponownie partycjonować dane wejściowe na podstawie identyfikatora DeviceId, zapytanie będzie:

WITH RepartitionedInput AS 
( 
    SELECT * 
    FROM input PARTITION BY DeviceID
)

SELECT DeviceID, AVG(Reading) as AvgNormalReading  
INTO output
FROM RepartitionedInput  
GROUP BY DeviceId, TumblingWindow(minute, 1)

Przykładowe zapytanie poniżej łączy dwa strumienie danych, które zostały ponownie partycjonowane. Po połączeniu dwóch strumieni danych podzielonych na partycje strumienie muszą mieć ten sam klucz partycji i taką samą liczbę partycji. Wynik jest strumieniem, który ma ten sam schemat partycji.

WITH step1 AS 
(
    SELECT * FROM input1 
    PARTITION BY DeviceID
),
step2 AS 
(
    SELECT * FROM input2 
    PARTITION BY DeviceID
)

SELECT * INTO output 
FROM step1 PARTITION BY DeviceID 
UNION step2 PARTITION BY DeviceID

Schemat danych wyjściowych powinien być zgodny z kluczem partycji strumienia i liczbą partycji, aby każdy podstream mógł być opróżniany niezależnie. Strumień może być również scalany i ponownie partycjonowany przez inny schemat przed opróżnieniem, ale należy unikać tej metody, ponieważ zwiększa ogólne opóźnienie przetwarzania i zwiększa wykorzystanie zasobów.

Jednostki przesyłania strumieniowego na potrzeby ponownego partycjonowania

Poeksperymentuj i obserwuj użycie zasobów zadania, aby określić dokładną liczbę potrzebnych partycji. Liczba jednostek przesyłania strumieniowego (SU) musi być dostosowywana zgodnie z zasobami fizycznymi wymaganymi dla każdej partycji. Ogólnie rzecz biorąc, dla każdej partycji potrzebnych jest sześć jednostek SU. Jeśli do zadania przypisano niewystarczające zasoby, system zastosuje ponowne podzielenie tylko wtedy, gdy będzie korzystne dla zadania.

Przepartycjonowania danych wyjściowych SQL

Gdy zadanie używa bazy danych SQL na potrzeby danych wyjściowych, użyj jawnego ponownego partycjonowania, aby dopasować optymalną liczbę partycji do zmaksymalizowania przepływności. Ponieważ SQL działa najlepiej z ośmioma pisarzami, repartycjonowanie przepływu do ośmiu przed spłukaniem, lub gdzieś dalej w górę strumienia, może przynieść korzyści dla wydajności zadania.

Jeśli istnieje więcej niż osiem partycji wejściowych, dziedziczenie schematu partycjonowania wejściowego może nie być odpowiednim wyborem. Rozważ użycie INTO w zapytaniu, aby jawnie określić liczbę zapisujących danych wyjściowych.

Poniższy przykład odczytuje dane wejściowe, niezależnie od tego, czy są naturalnie partycjonowane, i repartycjonuje strumień dziesięciokrotnie według wymiaru DeviceID, a następnie przesyła dane do danych wyjściowych.

SELECT * INTO [output] 
FROM [input] 
PARTITION BY DeviceID INTO 10

Aby uzyskać więcej informacji, zobacz Dane wyjściowe usługi Azure Stream Analytics w usłudze Azure SQL Database.

Następne kroki

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-26