Samouczek: przechwytywanie danych usługi Event Hubs w formacie parquet i analizowanie za pomocą usługi Azure Synapse Analytics

Artykuł
08/03/2023

W tym samouczku pokazano, jak za pomocą edytora kodu usługi Stream Analytics utworzyć zadanie przechwytujące dane usługi Event Hubs w celu Azure Data Lake Storage Gen2 w formacie parquet.

Ten samouczek zawiera informacje na temat wykonywania następujących czynności:

Wdrażanie generatora zdarzeń wysyłającego przykładowe zdarzenia do centrum zdarzeń
Tworzenie zadania usługi Stream Analytics przy użyciu edytora kodu
Przeglądanie danych wejściowych i schematu
Konfigurowanie Azure Data Lake Storage Gen2, do którego będą przechwytywane dane centrum zdarzeń
Uruchamianie zadania usługi Stream Analytics
Wykonywanie zapytań dotyczących plików parquet za pomocą usługi Azure Synapse Analytics

Wymagania wstępne

Przed rozpoczęciem upewnij się, że zostały wykonane następujące kroki:

Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto.
Wdróż aplikację generatora zdarzeń usługi TollApp na platformie Azure. Ustaw parametr "interval" na wartość 1 i użyj nowej grupy zasobów dla tego kroku.
Utwórz obszar roboczy usługi Azure Synapse Analytics przy użyciu konta Data Lake Storage Gen2.

Tworzenie zadania usługi Stream Analytics za pomocą edytora kodu

Znajdź grupę zasobów, w której wdrożono generator zdarzeń usługi TollApp.
Wybierz Azure Event Hubs przestrzeni nazw.
Na stronie Przestrzeń nazw usługi Event Hubs wybierz pozycję Event Hubs w obszarze Jednostki w menu po lewej stronie.
Wybierz entrystream wystąpienie.
Na stronie wystąpienia usługi Event Hubs wybierz pozycję Przetwarzanie danych w sekcji Funkcje w menu po lewej stronie.
Wybierz pozycję Start na kafelku Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet .
Nadaj zadanie nazwę parquetcapture i wybierz pozycję Utwórz.
Na stronie konfiguracji centrum zdarzeń potwierdź następujące ustawienia, a następnie wybierz pozycję Połącz.
- Grupa odbiorców: domyślna
- Typ serializacji danych wejściowych: JSON
- Tryb uwierzytelniania używany przez zadanie do nawiązywania połączenia z centrum zdarzeń: Parametry połączenia.
W ciągu kilku sekund zobaczysz przykładowe dane wejściowe i schemat. Możesz usunąć pola, zmienić nazwę pól lub zmienić typ danych.
Wybierz kafelek Azure Data Lake Storage Gen2 na kanwie i skonfiguruj go, określając
- Subskrypcja, w której znajduje się konto usługi Azure Data Lake Gen2
- Nazwa konta magazynu, które powinno być tym samym kontem usługi ADLS Gen2 używanym z obszarem roboczym usługi Azure Synapse Analytics w sekcji Wymagania wstępne.
- Kontener, w którym zostaną utworzone pliki Parquet.
- Wzorzec ścieżki ustawiony na {date}/{time}
- Wzorzec daty i godziny jako domyślny rrrr-mm-dd i HH.
- Wybierz pozycję Połącz
Wybierz pozycję Zapisz na górnej wstążce, aby zapisać zadanie, a następnie wybierz pozycję Uruchom , aby uruchomić zadanie. Po uruchomieniu zadania wybierz pozycję X w prawym rogu, aby zamknąć stronę zadania usługi Stream Analytics .
Następnie zostanie wyświetlona lista wszystkich zadań usługi Stream Analytics utworzonych przy użyciu edytora kodu bez. W ciągu dwóch minut zadanie przejdzie do stanu Uruchomiono . Wybierz przycisk Odśwież na stronie, aby zobaczyć zmianę stanu z Utworzone —> uruchamianie —> uruchamianie.

Wyświetlanie danych wyjściowych na koncie usługi Azure Data Lake Storage Gen 2

Znajdź konto Azure Data Lake Storage Gen2 użyte w poprzednim kroku.
Wybierz kontener, który został użyty w poprzednim kroku. Zobaczysz pliki parquet utworzone na podstawie wzorca ścieżki {date}/{time} użytego w poprzednim kroku.

Wykonywanie zapytań dotyczących przechwyconych danych w formacie Parquet za pomocą usługi Azure Synapse Analytics

Wykonywanie zapytań przy użyciu platformy Azure Synapse Spark

Znajdź obszar roboczy usługi Azure Synapse Analytics i otwórz Synapse Studio.
Utwórz bezserwerową pulę platformy Apache Spark w obszarze roboczym, jeśli jeszcze nie istnieje.
W Synapse Studio przejdź do centrum Programowanie i utwórz nowy notes.
Utwórz nową komórkę kodu i wklej następujący kod w tej komórce. Zastąp kontener i adlsname nazwą kontenera oraz kontem usługi ADLS Gen2 użytym w poprzednim kroku.
```
%%pyspark
df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
display(df.limit(10))
df.count()
df.printSchema()
```
W obszarze Dołącz do na pasku narzędzi wybierz pulę platformy Spark z listy rozwijanej.
Wybierz pozycję Uruchom wszystko , aby wyświetlić wyniki

Wykonywanie zapytań przy użyciu Azure Synapse bezserwerowej bazy danych SQL

W centrum Programowanie utwórz nowy skrypt SQL.
Wklej następujący skrypt i uruchom go przy użyciu wbudowanego bezserwerowego punktu końcowego SQL. Zastąp kontener i adlsname nazwą kontenera oraz kontem usługi ADLS Gen2 użytym w poprzednim kroku.
```
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]
```

Czyszczenie zasobów

Znajdź wystąpienie usługi Event Hubs i zapoznaj się z listą zadań usługi Stream Analytics w sekcji Przetwarzanie danych . Zatrzymaj wszystkie uruchomione zadania.
Przejdź do grupy zasobów użytej podczas wdrażania generatora zdarzeń TollApp.
Wybierz pozycję Usuń grupę zasobów. Wpisz nazwę grupy zasobów, aby potwierdzić usunięcie.

Następne kroki

W tym samouczku przedstawiono sposób tworzenia zadania usługi Stream Analytics przy użyciu edytora kodu bez do przechwytywania strumieni danych usługi Event Hubs w formacie Parquet. Następnie użyto usługi Azure Synapse Analytics do wykonywania zapytań względem plików parquet przy użyciu platformy Synapse Spark i usługi Synapse SQL.

Brak przetwarzania strumienia kodu za pomocą usługi Azure Stream Analytics

Udostępnij za pośrednictwem