Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule pokazano, jak dodać Lakehouse jako cel do strumienia zdarzeń w Microsoft Fabric. Aby zoptymalizować wydajność przesyłania strumieniowego i wykonywanie zapytań w czasie rzeczywistym, rozważ przesyłanie strumieniowe danych do magazynu zdarzeń z dodawaniem miejsca docelowego usługi Eventhouse do strumienia zdarzeń, a następnie włącz dostępność usługi Eventhouse OneLake.
Uwaga
Domyślnie, ulepszone funkcje są włączone, gdy tworzysz strumienie zdarzeń. Jeśli masz strumienie zdarzeń utworzone przy użyciu standardowych możliwości, te strumienie zdarzeń będą nadal działać. Nadal możesz edytować i używać ich jak zwykle. Zalecamy utworzenie nowego strumienia zdarzeń w celu zastąpienia standardowych strumieni zdarzeń, dzięki czemu można korzystać z dodatkowych możliwości i korzyści z rozszerzonych strumieni zdarzeń.
Ważne
Istnieje wymuszanie schematu przy zapisie danych do tabeli docelowej lakehouse. Wszystkie nowe zapisy w tabeli muszą być zgodne ze schematem tabeli docelowej w czasie zapisu, zapewniając jakość danych.
Gdy dane wyjściowe są zapisywane w nowej tabeli różnicowej, schemat tabeli jest tworzony na podstawie pierwszego rekordu. Wszystkie rekordy danych wyjściowych są rzutowane na schemat istniejącej tabeli.
Jeśli dane przychodzące mają kolumny, które nie znajdują się w istniejącym schemacie tabeli, dodatkowe kolumny nie są uwzględniane w danych zapisanych w tabeli. Podobnie, jeśli przychodzące dane nie zawierają kolumn, które są w istniejącym schemacie tabeli, brakujące kolumny są zapisywane w tabeli z wartościami ustawionymi na null.
Jeśli schemat tabeli Delta i rekord przychodzący nie mają wspólnych elementów, powoduje to niepowodzenie konwersji schematu. Nie jest to jednak jedyny scenariusz, który może spowodować taką awarię.
Jeśli schemat przychodzących danych ulegnie zmianie (tj. schemat nowego rekordu danych nie jest zgodny z pierwszym rekordem), niektóre kolumny lub całe rekordy mogą zostać utracone podczas zapisywania w usłudze Lakehouse. W związku z tym używanie usługi Lakehouse do odbierania takich danych przesyłanych strumieniowo, takich jak dane CDC bazy danych, nie jest zalecane.
Wymagania wstępne
- Dostęp do obszaru roboczego w trybie licencji pojemności Fabric lub w trybie licencji próbnej z uprawnieniami współautora lub wyższymi.
- Dostęp do obszaru roboczego, w którym znajduje się usługa Lakehouse, z uprawnieniami współautora lub wyższymi.
Dodaj lakehouse jako miejsce docelowe
Aby dodać miejsce docelowe usługi Lakehouse do domyślnego lub pochodnego strumienia zdarzeń, wykonaj następujące kroki.
W trybie edycji dla strumienia zdarzeń wybierz pozycję Dodaj miejsce docelowe na wstążce i wybierz pozycję Lakehouse z listy rozwijanej.
Połącz węzeł lakehouse z węzłem strumieniowym lub operatorem.
Na ekranie konfiguracji usługi Lakehouse wypełnij następujące informacje:
- Wprowadź nazwę miejsca docelowego.
- Wybierz obszar roboczy zawierający Twoje lakehouse.
- Wybierz istniejący Lakehouse z wybranego przez Ciebie obszaru roboczego.
- Wybierz istniejącą tabelę delty lub utwórz nową, aby odbierać dane.
- Wybierz format danych wejściowych, który jest wysyłany do usługi Lakehouse. Obsługiwane formaty danych to pliki JSON, Avro i CSV.
Wybierz opcję Zaawansowane.
Dwa tryby pozyskiwania są dostępne dla docelowego obszaru lakehouse. W oparciu o Twój scenariusz skonfiguruj te tryby, aby zoptymalizować sposób, w jaki strumienie zdarzeń Fabric zapisują do usługi Lakehouse.
Minimalna liczba wierszy to minimalna liczba wierszy pozyskiwanych przez usługę Lakehouse w jednym pliku. Wartość minimalna to 1 wiersz, a maksymalna to 2 miliony wierszy na plik. Mniejsza minimalna liczba wierszy, tym więcej plików tworzonych przez lakehouse podczas pozyskiwania.
Maksymalny czas trwania to maksymalny okres, jaki zajmuje lakehouse przetwarzanie pojedynczego pliku. Minimalna wartość to 1 minuta, a maksymalna to 2 godziny. Im dłuższy czas trwania, tym więcej wierszy jest wczytywanych do pliku.
Wybierz pozycję Zapisz.
Aby zaimplementować nowo dodane miejsce docelowe „Lakehouse”, wybierz pozycję Publikuj.
Po wykonaniu tych kroków miejsce docelowe Lakehouse będzie dostępne dla wizualizacji w Widoku na żywo. W okienku Szczegóły możesz wybrać skrót Optymalizuj tabelę w notesie , aby uruchomić zadanie platformy Apache Spark w notesie, które konsoliduje małe pliki przesyłane strumieniowo w docelowej tabeli lakehouse.
Uwaga
Podczas konfigurowania strumienia zdarzeń źródło, logika transformacji i miejsce docelowe są zwykle dodawane razem. Domyślnie, podczas publikowania strumienia zdarzeń, usługi zaplecza związane z pozyskiwaniem danych i routowaniem danych zaczynają się odpowiednio od i. Jednak przyjmowanie danych może rozpocząć się szybciej niż routing danych, co powoduje, że niektóre dane są przyjmowane do strumienia zdarzeń, zanim routing zostanie w pełni zainicjowany. W związku z tym te dane mogą nie być kierowane do miejsca docelowego.
Aby rozwiązać ten problem, wykonaj następujące kroki:
Podczas konfigurowania Eventhouse (przetwarzanie zdarzeń przed pozyskiwaniem) lub miejsca docelowego usługi Lakehouse usuń zaznaczenie Aktywuj pozyskiwanie po dodaniu źródła danych.
Ręczne aktywowanie przetwarzania po opublikowaniu strumienia zdarzeń.
Użyj opcji Niestandardowy czas, aby wybrać wcześniejszy znacznik czasu w celu zapewnienia prawidłowego przetwarzania i kierowania danych początkowych.
Aby uzyskać więcej informacji, zobacz Wstrzymaj i wznawiaj strumienie danych
Powiązana zawartość
Aby dowiedzieć się, jak dodać inne miejsca docelowe do strumienia zdarzeń, zobacz następujące artykuły:
Wymagania wstępne
Przed rozpoczęciem należy spełnić następujące wymagania wstępne:
- Dostęp do obszaru roboczego w trybie licencji pojemności Fabric lub w trybie licencji próbnej z uprawnieniami współautora lub wyższymi.
- Uzyskaj dostęp do obszaru roboczego z uprawnieniami współautora lub wyższymi, w którym znajduje się twoja lakehouse.
Dodaj lakehouse jako miejsce docelowe
Jeśli masz utworzoną usługę Lakehouse w obszarze roboczym, wykonaj następujące kroki, aby dodać usługę Lakehouse do strumienia zdarzeń jako miejsce docelowe:
Wybierz pozycję Nowe miejsce docelowe na wstążce lub "+" na kanwie edytora głównego, a następnie wybierz pozycję Lakehouse. Zostanie wyświetlony ekran konfiguracji miejsca docelowego usługi Lakehouse .
Wprowadź nazwę miejsca docelowego strumienia zdarzeń i uzupełnij informacje o urządzeniu lakehouse.
Lakehouse: wybierz istniejący lakehouse z obszaru roboczego, który wskazałeś.
Tabela delty: wybierz istniejącą tabelę delty lub utwórz nową, aby odbierać dane.
Uwaga
Podczas zapisywania danych w tabeli lakehouse istnieje wymuszanie schematu. Oznacza to, że wszystkie nowe operacje zapisu w tabeli muszą być zgodne ze schematem tabeli docelowej w czasie zapisu, zapewniając jakość danych.
Wszystkie rekordy danych wyjściowych są rzutowane na schemat istniejącej tabeli. Podczas zapisywania danych wyjściowych w nowej tabeli delty schemat tabeli jest tworzony na podstawie pierwszego rekordu. Jeśli dane przychodzące mają dodatkową kolumnę w porównaniu z istniejącym schematem tabeli, zapisuje w tabeli bez uwzględniania dodatkowej kolumny. Z drugiej strony, jeśli w danych przychodzących brakuje kolumny w porównaniu z istniejącym schematem tabeli, zapisuje w tabeli z kolumną ustawioną na null.
Format danych wejściowych: Wybierz format danych wejściowych wysyłanych do Twojego Lakehouse.
Uwaga
Obsługiwane formaty danych zdarzeń wejściowych to pliki JSON, Avro i CSV (z nagłówkiem).
Przetwarzanie zdarzeń: Możesz użyć edytora przetwarzania zdarzeń, aby określić, jak dane mają być przetwarzane przed ich wysłaniem do twojego lakehouse. Wybierz Otwórz procesor zdarzeń, aby otworzyć edytor przetwarzania zdarzeń. Aby dowiedzieć się więcej na temat przetwarzania w czasie rzeczywistym przy użyciu procesora zdarzeń, zobacz Przetwarzanie danych zdarzeń za pomocą edytora procesora zdarzeń. Po zakończeniu pracy z edytorem wybierz pozycję Gotowe , aby powrócić do ekranu konfiguracji docelowej usługi Lakehouse .
Dwa tryby pozyskiwania są dostępne dla docelowego obszaru lakehouse. Wybierz jeden z trybów, aby zoptymalizować sposób, w jaki funkcja strumieni zdarzeń Fabric zapisuje do Lakehouse, w zależności od scenariusza.
Wiersze na plik — minimalna liczba wierszy pozyskanych przez usługę Lakehouse w jednym pliku. Im mniejsza minimalna liczba wierszy, tym więcej plików Lakehouse tworzy podczas importu. Minimalna wartość to 1 wiersz. Maksymalna liczba to 2 mln wierszy na plik.
Czas trwania — maksymalny czas trwania pozyskiwania pojedynczego pliku przez usługę Lakehouse. Dłuższy czas trwania, więcej wierszy jest pozyskiwanych w pliku. Minimalna wartość to 1 minuta, a wartość maksymalna to 2 godziny.
Wybierz Dodaj, aby dodać miejsce docelowe dom nad jeziorem.
Skrót do optymalizacji tabeli dostępny w destynacji Lakehouse. To rozwiązanie ułatwia ci uruchomienie zadania platformy Spark w notesie, konsolidując te małe przesyłane strumieniowo pliki w docelowej tabeli Lakehouse.
Miejsce docelowe nad jeziorem pojawia się na płótnie, z obracającym się wskaźnikiem stanu. Zmiana stanu systemu na Aktywny trwa kilka minut.
Zarządzanie miejscem docelowym
Edytuj/usuń: możesz edytować lub usunąć miejsce docelowe strumienia zdarzeń za pośrednictwem okienka nawigacji lub kanwy.
Po wybraniu pozycji Edytuj okienko edycji zostanie otwarte po prawej stronie edytora głównego. Konfigurację można zmodyfikować zgodnie z życzeniem, w tym logikę przekształcania zdarzeń za pośrednictwem edytora procesora zdarzeń.
Powiązana zawartość
Aby dowiedzieć się, jak dodać inne miejsca docelowe do strumienia zdarzeń, zobacz następujące artykuły: