Przechwytywanie danych z usługi Event Hubs w formacie Parquet

W tym artykule wyjaśniono, jak używać edytora kodu do automatycznego przechwytywania danych przesyłanych strumieniowo w usłudze Event Hubs na koncie Azure Data Lake Storage Gen2 w formacie Parquet.

Wymagania wstępne

  • Przestrzeń nazw Azure Event Hubs z centrum zdarzeń i kontem Azure Data Lake Storage Gen2 z kontenerem do przechowywania przechwyconych danych. Te zasoby muszą być publicznie dostępne i nie mogą być za zaporą ani zabezpieczone w sieci wirtualnej platformy Azure.

    Jeśli nie masz centrum zdarzeń, utwórz go, postępując zgodnie z instrukcjami z przewodnika Szybki start: tworzenie centrum zdarzeń.

    Jeśli nie masz konta Data Lake Storage Gen2, utwórz je, postępując zgodnie z instrukcjami z sekcji Tworzenie konta magazynu

  • Dane w usłudze Event Hubs muszą być serializowane w formacie JSON, CSV lub Avro. Na potrzeby testowania wybierz pozycję Generuj dane (wersja zapoznawcza) w menu po lewej stronie, wybierz pozycję Zapasy danych dla zestawu danych, a następnie wybierz pozycję Wyślij.

    Zrzut ekranu przedstawiający stronę Generowanie danych w celu wygenerowania przykładowych danych zapasów.

Konfigurowanie zadania do przechwytywania danych

Wykonaj poniższe kroki, aby skonfigurować zadanie usługi Stream Analytics do przechwytywania danych w Azure Data Lake Storage Gen2.

  1. W Azure Portal przejdź do centrum zdarzeń.

  2. W menu po lewej stronie wybierz pozycję Przetwarzanie danych w obszarze Funkcje. Następnie wybierz pozycję Rozpocznij na karcie Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet .

    Zrzut ekranu przedstawiający karty uruchamiania danych usługi Event Hubs procesu.

  3. Wprowadź nazwę zadania usługi Stream Analytics, a następnie wybierz pozycję Utwórz.

    Zrzut ekranu przedstawiający okno Nowego zadania usługi Stream Analytics, w którym wprowadzasz nazwę zadania.

  4. Określ typ serializacji danych w usłudze Event Hubs i metodę uwierzytelniania używaną przez zadanie do nawiązywania połączenia z usługą Event Hubs. Następnie wybierz pozycję Połącz.

    Zrzut ekranu przedstawiający konfigurację połączenia usługi Event Hubs.

  5. Po pomyślnym nawiązaniu połączenia zobaczysz:

    • Pola, które znajdują się w danych wejściowych. Możesz wybrać pozycję Dodaj pole lub wybrać trzy symbol kropki obok pola, aby opcjonalnie usunąć, zmienić nazwę lub zmienić jego nazwę.

    • Przykład danych przychodzących w tabeli Podgląd danych w widoku diagramu. Jest okresowo odświeżane. Możesz wybrać pozycję Wstrzymaj podgląd przesyłania strumieniowego , aby wyświetlić statyczny widok przykładowych danych wejściowych.

      Zrzut ekranu przedstawiający przykładowe dane w obszarze Podgląd danych.

  6. Wybierz kafelek Azure Data Lake Storage Gen2, aby edytować konfigurację.

  7. Na stronie konfiguracji Azure Data Lake Storage Gen2 wykonaj następujące kroki:

    1. Wybierz subskrypcję, nazwę konta magazynu i kontener z menu rozwijanego.

    2. Po wybraniu subskrypcji należy automatycznie wypełnić metodę uwierzytelniania i klucz konta magazynu.

    3. Wybierz pozycję Parquet w polu Format serializacji .

      Zrzut ekranu przedstawiający stronę konfiguracji Data Lake Storage Gen2.

    4. W przypadku obiektów blob przesyłania strumieniowego wzorzec ścieżki katalogu powinien być wartością dynamiczną. Data jest wymagana, aby była częścią ścieżki pliku dla obiektu blob — odwołuje się jako {date}. Aby dowiedzieć się więcej o niestandardowych wzorcach ścieżek, zobacz Partycjonowanie niestandardowych obiektów blob w usłudze Azure Stream Analytics.

      Pierwszy zrzut ekranu przedstawiający okno obiektu blob, w którym edytujesz konfigurację połączenia obiektu blob.

    5. Wybierz pozycję Połącz

  8. Po nawiązaniu połączenia zostaną wyświetlone pola, które są obecne w danych wyjściowych.

  9. Wybierz pozycję Zapisz na pasku poleceń, aby zapisać konfigurację.

    Zrzut ekranu przedstawiający przycisk Zapisz wybrany na pasku poleceń.

  10. Wybierz pozycję Start na pasku poleceń, aby uruchomić przepływ przesyłania strumieniowego w celu przechwycenia danych. Następnie w oknie Uruchom zadanie usługi Stream Analytics:

    1. Wybierz godzinę rozpoczęcia danych wyjściowych.

    2. Wybierz plan cenowy.

    3. Wybierz liczbę jednostek przesyłania strumieniowego (SU) uruchamianych przez zadanie. SU reprezentuje zasoby obliczeniowe przydzielone do wykonania zadania usługi Stream Analytics. Aby uzyskać więcej informacji, zobacz Streaming Units in Azure Stream Analytics (Jednostki przesyłania strumieniowego w usłudze Azure Stream Analytics).

      Zrzut ekranu przedstawiający okno uruchamiania zadania usługi Stream Analytics, w którym ustawiono czas rozpoczęcia danych wyjściowych, jednostki przesyłania strumieniowego i obsługę błędów.

  11. Zadanie analityczne usługi Stream powinno zostać wyświetlone na karcie Zadanie usługi Stream Analytics na stronie Przetwarzanie danych dla centrum zdarzeń.

    Zrzut ekranu przedstawiający zadanie usługi Stream Analytics na stronie Przetwarzanie danych.

Weryfikacja danych wyjściowych

  1. Na stronie wystąpienia usługi Event Hubs dla centrum zdarzeń wybierz pozycję Generuj dane, wybierz pozycję Zapasy danych dla zestawu danych, a następnie wybierz pozycję Wyślij , aby wysłać przykładowe dane do centrum zdarzeń.

  2. Sprawdź, czy pliki Parquet są generowane w kontenerze Azure Data Lake Storage.

    Zrzut ekranu przedstawiający wygenerowane pliki Parquet w kontenerze usługi ADLS.

  3. Wybierz pozycję Przetwarzanie danych w menu po lewej stronie. Przejdź do karty Zadania usługi Stream Analytics . Wybierz pozycję Otwórz metryki , aby je monitorować.

    Zrzut ekranu przedstawiający wybrane łącze Otwórz metryki.

    Oto przykładowy zrzut ekranu przedstawiający metryki przedstawiające zdarzenia wejściowe i wyjściowe.

    Zrzut ekranu przedstawiający metryki zadania usługi Stream Analytics.

Następne kroki

Teraz wiesz, jak za pomocą edytora kodu usługi Stream Analytics utworzyć zadanie, które przechwytuje dane usługi Event Hubs w celu Azure Data Lake Storage Gen2 w formacie Parquet. Następnie możesz dowiedzieć się więcej o usłudze Azure Stream Analytics i sposobie monitorowania utworzonego zadania.