Udostępnij za pośrednictwem


Samouczek: przechwytywanie danych usługi Event Hubs w formacie parquet i analizowanie za pomocą usługi Azure Synapse Analytics

W tym samouczku pokazano, jak za pomocą edytora kodu usługi Stream Analytics utworzyć zadanie przechwytujące dane usługi Event Hubs w celu Azure Data Lake Storage Gen2 w formacie parquet.

Ten samouczek zawiera informacje na temat wykonywania następujących czynności:

  • Wdrażanie generatora zdarzeń wysyłającego przykładowe zdarzenia do centrum zdarzeń
  • Tworzenie zadania usługi Stream Analytics przy użyciu edytora kodu
  • Przeglądanie danych wejściowych i schematu
  • Konfigurowanie Azure Data Lake Storage Gen2, do którego będą przechwytywane dane centrum zdarzeń
  • Uruchamianie zadania usługi Stream Analytics
  • Wykonywanie zapytań dotyczących plików parquet za pomocą usługi Azure Synapse Analytics

Wymagania wstępne

Przed rozpoczęciem upewnij się, że zostały wykonane następujące kroki:

Tworzenie zadania usługi Stream Analytics za pomocą edytora kodu

  1. Znajdź grupę zasobów, w której wdrożono generator zdarzeń usługi TollApp.

  2. Wybierz Azure Event Hubs przestrzeni nazw.

  3. Na stronie Przestrzeń nazw usługi Event Hubs wybierz pozycję Event Hubs w obszarze Jednostki w menu po lewej stronie.

  4. Wybierz entrystream wystąpienie.

    Zrzut ekranu przedstawiający wybór centrum zdarzeń.

  5. Na stronie wystąpienia usługi Event Hubs wybierz pozycję Przetwarzanie danych w sekcji Funkcje w menu po lewej stronie.

  6. Wybierz pozycję Start na kafelku Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet .

    Zrzut ekranu przedstawiający wybór kafelka **Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet**.

  7. Nadaj zadanie nazwę parquetcapture i wybierz pozycję Utwórz.

    Zrzut ekranu przedstawiający stronę Nowego zadania usługi Stream Analytics.

  8. Na stronie konfiguracji centrum zdarzeń potwierdź następujące ustawienia, a następnie wybierz pozycję Połącz.

    • Grupa odbiorców: domyślna

    • Typ serializacji danych wejściowych: JSON

    • Tryb uwierzytelniania używany przez zadanie do nawiązywania połączenia z centrum zdarzeń: Parametry połączenia.

      Zrzut ekranu przedstawiający stronę konfiguracji centrum zdarzeń.

  9. W ciągu kilku sekund zobaczysz przykładowe dane wejściowe i schemat. Możesz usunąć pola, zmienić nazwę pól lub zmienić typ danych.

    Zrzut ekranu przedstawiający pola i podgląd danych.

  10. Wybierz kafelek Azure Data Lake Storage Gen2 na kanwie i skonfiguruj go, określając

    • Subskrypcja, w której znajduje się konto usługi Azure Data Lake Gen2
    • Nazwa konta magazynu, które powinno być tym samym kontem usługi ADLS Gen2 używanym z obszarem roboczym usługi Azure Synapse Analytics w sekcji Wymagania wstępne.
    • Kontener, w którym zostaną utworzone pliki Parquet.
    • Wzorzec ścieżki ustawiony na {date}/{time}
    • Wzorzec daty i godziny jako domyślny rrrr-mm-dd i HH.
    • Wybierz pozycję Połącz

    Zrzut ekranu przedstawiający ustawienia konfiguracji Data Lake Storage.

  11. Wybierz pozycję Zapisz na górnej wstążce, aby zapisać zadanie, a następnie wybierz pozycję Uruchom , aby uruchomić zadanie. Po uruchomieniu zadania wybierz pozycję X w prawym rogu, aby zamknąć stronę zadania usługi Stream Analytics .

    Zrzut ekranu przedstawiający stronę Uruchamianie zadania usługi Stream Analytics.

  12. Następnie zostanie wyświetlona lista wszystkich zadań usługi Stream Analytics utworzonych przy użyciu edytora kodu bez. W ciągu dwóch minut zadanie przejdzie do stanu Uruchomiono . Wybierz przycisk Odśwież na stronie, aby zobaczyć zmianę stanu z Utworzone —> uruchamianie —> uruchamianie.

    Zrzut ekranu przedstawiający listę zadań usługi Stream Analytics.

Wyświetlanie danych wyjściowych na koncie usługi Azure Data Lake Storage Gen 2

  1. Znajdź konto Azure Data Lake Storage Gen2 użyte w poprzednim kroku.

  2. Wybierz kontener, który został użyty w poprzednim kroku. Zobaczysz pliki parquet utworzone na podstawie wzorca ścieżki {date}/{time} użytego w poprzednim kroku.

    Zrzut ekranu przedstawiający przechwycone pliki parquet w usłudze Azure Data Lake Storage Gen 2.

Wykonywanie zapytań dotyczących przechwyconych danych w formacie Parquet za pomocą usługi Azure Synapse Analytics

Wykonywanie zapytań przy użyciu platformy Azure Synapse Spark

  1. Znajdź obszar roboczy usługi Azure Synapse Analytics i otwórz Synapse Studio.

  2. Utwórz bezserwerową pulę platformy Apache Spark w obszarze roboczym, jeśli jeszcze nie istnieje.

  3. W Synapse Studio przejdź do centrum Programowanie i utwórz nowy notes.

  4. Utwórz nową komórkę kodu i wklej następujący kod w tej komórce. Zastąp kontener i adlsname nazwą kontenera oraz kontem usługi ADLS Gen2 użytym w poprzednim kroku.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. W obszarze Dołącz do na pasku narzędzi wybierz pulę platformy Spark z listy rozwijanej.

  6. Wybierz pozycję Uruchom wszystko , aby wyświetlić wyniki

    Zrzut ekranu przedstawiający wyniki przebiegu platformy Spark w usłudze Azure Synapse Analytics.

Wykonywanie zapytań przy użyciu Azure Synapse bezserwerowej bazy danych SQL

  1. W centrum Programowanie utwórz nowy skrypt SQL.

    Zrzut ekranu przedstawiający stronę Programowanie z wybranym nowym menu skryptów SQL.

  2. Wklej następujący skrypt i uruchom go przy użyciu wbudowanego bezserwerowego punktu końcowego SQL. Zastąp kontener i adlsname nazwą kontenera oraz kontem usługi ADLS Gen2 użytym w poprzednim kroku.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Zrzut ekranu przedstawiający wyniki skryptu SQL w usłudze Azure Synapse Analytics.

Czyszczenie zasobów

  1. Znajdź wystąpienie usługi Event Hubs i zapoznaj się z listą zadań usługi Stream Analytics w sekcji Przetwarzanie danych . Zatrzymaj wszystkie uruchomione zadania.
  2. Przejdź do grupy zasobów użytej podczas wdrażania generatora zdarzeń TollApp.
  3. Wybierz pozycję Usuń grupę zasobów. Wpisz nazwę grupy zasobów, aby potwierdzić usunięcie.

Następne kroki

W tym samouczku przedstawiono sposób tworzenia zadania usługi Stream Analytics przy użyciu edytora kodu bez do przechwytywania strumieni danych usługi Event Hubs w formacie Parquet. Następnie użyto usługi Azure Synapse Analytics do wykonywania zapytań względem plików parquet przy użyciu platformy Synapse Spark i usługi Synapse SQL.