Przechwytywanie danych z usługi Event Hubs w formacie usługi Delta Lake
W tym artykule wyjaśniono, jak używać edytora kodu do automatycznego przechwytywania danych przesyłanych strumieniowo w usłudze Event Hubs na koncie usługi Azure Data Lake Storage Gen2 w formacie usługi Delta Lake.
Wymagania wstępne
- Zasoby usług Azure Event Hubs i Azure Data Lake Storage Gen2 muszą być publicznie dostępne i nie mogą znajdować się za zaporą ani zabezpieczyć w usłudze Azure Virtual Network.
- Dane w usłudze Event Hubs muszą być serializowane w formacie JSON, CSV lub Avro.
Konfigurowanie zadania przechwytywania danych
Wykonaj poniższe kroki, aby skonfigurować zadanie usługi Stream Analytics do przechwytywania danych w usłudze Azure Data Lake Storage Gen2.
W witrynie Azure Portal przejdź do centrum zdarzeń.
Wybierz pozycję Funkcje Process Data (Dane przetwarzania funkcji>) i wybierz pozycję Start (Rozpocznij) na karcie Przechwytywanie danych do usługi ADLS Gen2 na karcie formatu usługi Delta Lake.
Alternatywnie wybierz opcję Przechwytywanie funkcji>i wybierz opcję Delta Lake w obszarze "Format serializacji zdarzeń wyjściowych", a następnie wybierz pozycję Rozpocznij konfigurację przechwytywania danych.
Wprowadź nazwę, aby zidentyfikować zadanie usługi Stream Analytics. Wybierz pozycję Utwórz.
Określ typ serializacji danych w usłudze Event Hubs i metodę uwierzytelniania używaną przez zadanie do nawiązywania połączenia z usługą Event Hubs. Następnie wybierz pozycję Połącz.
Po pomyślnym nawiązaniu połączenia zobaczysz:
- Pola, które znajdują się w danych wejściowych. Możesz wybrać pozycję Dodaj pole lub wybrać trzy symbol kropki obok pola, aby opcjonalnie usunąć, zmienić nazwę lub zmienić jego nazwę.
- Przykład na żywo danych przychodzących w tabeli Podgląd danych w widoku diagramu. Okresowo jest odświeżane. Możesz wybrać pozycję Wstrzymaj podgląd przesyłania strumieniowego, aby wyświetlić statyczny widok przykładowych danych wejściowych.
Wybierz kafelek Azure Data Lake Storage Gen2, aby edytować konfigurację.
Na stronie konfiguracji usługi Azure Data Lake Storage Gen2 wykonaj następujące kroki:
Wybierz subskrypcję, nazwę konta magazynu i kontener z menu rozwijanego.
Po wybraniu subskrypcji należy automatycznie wypełnić metodę uwierzytelniania i klucz konta magazynu.
W przypadku ścieżki tabeli delty służy do określania lokalizacji i nazwy tabeli usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2. Możesz użyć co najmniej jednego segmentu ścieżki, aby zdefiniować ścieżkę do tabeli różnicowej i nazwę tabeli różnicowej. Aby dowiedzieć się więcej, zobacz Zapisywanie w tabeli usługi Delta Lake.
Wybierz pozycję Połącz.
Po nawiązaniu połączenia zostaną wyświetlone pola, które znajdują się w danych wyjściowych.
Wybierz pozycję Zapisz na pasku poleceń, aby zapisać konfigurację.
Wybierz pozycję Start na pasku poleceń, aby uruchomić przepływ przesyłania strumieniowego w celu przechwycenia danych. Następnie w oknie Uruchamianie zadania usługi Stream Analytics:
- Wybierz godzinę rozpoczęcia danych wyjściowych.
- Wybierz liczbę jednostek przesyłania strumieniowego (SU), z którymi jest uruchamiane zadanie. Funkcja SU reprezentuje zasoby obliczeniowe przydzielone do wykonywania zadania usługi Stream Analytics. Aby uzyskać więcej informacji, zobacz Jednostki przesyłania strumieniowego w usłudze Azure Stream Analytics.
Po wybraniu pozycji Uruchom zadanie zostanie uruchomione w ciągu dwóch minut, a metryki zostaną otwarte w sekcji tabulacji, jak pokazano na poniższej ilustracji.
Nowe zadanie można zobaczyć na karcie Zadania usługi Stream Analytics.
Weryfikacja danych wyjściowych
Sprawdź, czy pliki parquet z formatem usługi Delta Lake są generowane w kontenerze usługi Azure Data Lake Storage.
Zagadnienia dotyczące korzystania z funkcji replikacji geograficznej usługi Event Hubs
Usługa Azure Event Hubs niedawno uruchomiła funkcję replikacji geograficznej w publicznej wersji zapoznawczej. Ta funkcja różni się od funkcji odzyskiwania po awarii geograficznej w usłudze Azure Event Hubs.
Gdy typ trybu failover jest wymuszony , a spójność replikacji jest asynchroniczna, zadanie usługi Stream Analytics nie gwarantuje dokładnie raz danych wyjściowych danych wyjściowych usługi Azure Event Hubs.
Usługa Azure Stream Analytics, jako producent z centrum zdarzeń, może obserwować opóźnienie limitu w zadaniu w czasie trwania pracy w trybie failover i podczas ograniczania przepustowości przez usługę Event Hubs w przypadku opóźnienia replikacji między główną i pomocniczą osiąga maksymalne skonfigurowane opóźnienie.
Usługa Azure Stream Analytics, jako użytkownik z usługą Event Hubs jako dane wejściowe, może obserwować opóźnienie limitu w zadaniu podczas trwania trybu failover i może pominąć dane lub znaleźć zduplikowane dane po zakończeniu pracy w trybie failover.
Ze względu na te zastrzeżenia zalecamy ponowne uruchomienie zadania usługi Stream Analytics z odpowiednim czasem rozpoczęcia bezpośrednio po zakończeniu pracy w trybie failover usługi Event Hubs. Ponadto, ponieważ funkcja replikacji geograficznej usługi Event Hubs jest dostępna w publicznej wersji zapoznawczej, nie zalecamy używania tego wzorca dla produkcyjnych zadań usługi Stream Analytics. Bieżące zachowanie usługi Stream Analytics poprawi się, zanim funkcja replikacji geograficznej usługi Event Hubs będzie ogólnie dostępna i może być używana w zadaniach produkcyjnych usługi Stream Analytics.
Następne kroki
Teraz wiesz, jak używać edytora kodu usługi Stream Analytics do utworzenia zadania, które przechwytuje dane usługi Event Hubs w usłudze Azure Data Lake Storage Gen2 w formacie usługi Delta Lake. Następnie możesz dowiedzieć się więcej o usłudze Azure Stream Analytics i sposobie monitorowania utworzonego zadania.