Odnajdywanie danych przesyłanych strumieniowo w centrum Real-Time
W poprzedniej lekcji nauczyłeś się, jak znaleźć i połączyć się z danymi wsadowymi przechowywanymi w lakehouse'ach i magazynach. Jednak dane nie zawsze docierają w partiach — czasami przepływają nieprzerwanie. Poziomy zapasów zmieniają się w miarę sprzedaży produktów, strumienia transakcji od klientów online, a czujniki IoT wysyłają odczyty temperatury co kilka sekund.
Przed dołączeniem danych przesyłanych strumieniowo do rozwiązania należy znaleźć odpowiednie dane przy użyciu centrum Real-Time.
Odnajdywanie danych przesyłanych strumieniowo
Centrum Real-Time to scentralizowany katalog do odkrywania danych przesyłanych strumieniowo i zarządzania nimi w usłudze Microsoft Fabric. Katalog OneLake pokazuje dane wsadowe przechowywane w lakehouse'ach i magazynach, natomiast w centrum Real-Time wyświetla strumienie zdarzeń i tabele KQL aktywnie działające w organizacji.
Strumienie zdarzeń to ciągłe przepływy danych ze źródeł, takich jak Azure Event Hubs, urządzenia IoT, Apache Kafka, przechwytywanie zmian danych bazy danych (CDC) lub aplikacje niestandardowe. Każdy strumień przenosi wydarzenia w miarę ich wystąpienia, na przykład klient kończący zakup lub czujnik wykrywający zmianę temperatury.
Przesyłanie strumieniowe danych często przepływa do magazynów zdarzeń, będących kontenerami przechowującymi co najmniej jedną bazę danych KQL. Te bazy danych przechowują zdarzenia oparte na czasie lub zdarzeniach i obsługują szybkie wykonywanie zapytań przy użyciu języka Kusto Query Language (KQL). Dane są automatycznie indeksowane i partycjonowane według czasu pozyskiwania, co umożliwia szybką analizę nawet podczas ciągłego pozyskiwania danych.
Tak jak przeglądasz katalog OneLake, aby znaleźć magazyny danych lakehouse, przeglądasz centrum czasu rzeczywistego, aby odnaleźć źródła danych przesyłania strumieniowego utworzone przez inne zespoły. Ten krok odnajdywania pomaga określić, czy istniejące strumienie spełniają Twoje potrzeby. Jeśli strumień przechwytuje już żądane dane, możesz pracować z nim bezpośrednio, zamiast tworzyć zduplikowane potoki danych.
Eksplorowanie danych przesyłanych strumieniowo
Aby uzyskać dostęp do centrum Real-Time, wybierz pozycję Real-Time z lewego menu nawigacyjnego w Fabric. Centrum otwiera się na stronie Dane przesyłane strumieniowo, na której są wyświetlane ostatnio utworzone strumienie zdarzeń i tabele KQL, do których masz dostęp.
Strumienie można przeglądać według obszaru roboczego, filtrować według typu źródła lub wyszukiwać określone nazwy strumieni. Po wybraniu strumienia zostaną wyświetlone jego szczegóły, w tym:
- Nazwa strumienia i element źródłowy (eventstream lub baza danych KQL)
- Właściciel elementu i lokalizacja obszaru roboczego
- Stan poręczenia
- Etykiety wrażliwości
Szczegóły strumienia zawierają również informacje o aktywności. Możesz sprawdzić, czy strumień aktywnie odbiera dane i kiedy został ostatnio zaktualizowany. Te informacje ułatwiają ocenę, czy strumień jest niezawodny do użytku produkcyjnego.
Wskazówka
Przed użyciem strumienia danych przejrzyj jego schemat i przykładowe dane, aby sprawdzić, czy zawiera pola potrzebne do pracy analitycznej.
Użyj odnalezionych strumieni
Po odnalezieniu strumienia zawierającego przydatne dane masz kilka opcji w zależności od tego, czy jest to strumień zdarzeń, czy tabela KQL:
W przypadku strumieni zdarzeń:
- Wyświetlanie właściwości i profilu danych strumienia
- Ustawianie alertów przy użyciu Fabric Activator do wyzwalania akcji w przypadku wystąpienia określonych warunków
- Tworzenie skrótów, jeśli strumień zdarzeń wysyła dane do usługi Lakehouse
W przypadku tabel KQL:
- Wykonywanie zapytań dotyczących danych bezpośrednio przy użyciu zestawu zapytań KQL na potrzeby analizy w czasie rzeczywistym
- Tworzenie wizualizacji na pulpitach nawigacyjnych w czasie rzeczywistym
- Ustawianie alertów dotyczących wyników zapytania
Możesz również utworzyć nowy strumień zdarzeń na podstawie danych, które znajdziesz, aby można było przekształcić i umieścić dane w razie potrzeby. Takie podejście umożliwia dodawanie własnej logiki biznesowej i przekształceń bez modyfikowania oryginalnego strumienia.
Dane w czasie rzeczywistym mogą przepływać do magazynów typu lakehouse za pomocą strumieni zdarzeń, co tworzy pomost pomiędzy analizą strumieniową a analizą wsadową. Ta architektura umożliwia tworzenie raportów łączących zarówno dane w czasie rzeczywistym, jak i historyczne.
Dodawanie nowych źródeł przesyłania strumieniowego
Chociaż strona Dane przesyłane strumieniowo ułatwia odnajdywanie istniejących strumieni, Real-Time hub udostępnia również funkcję Dodawanie danych na potrzeby łączenia nowych źródeł zewnętrznych. Ta opcja jest przydatna wtedy, gdy musisz wprowadzić dane, które jeszcze nie istnieją w Fabric.
Wybierz pozycję Dodaj dane , aby uzyskać dostęp do łączników dla:
- Źródła firmy Microsoft: Azure Event Hubs, Azure IoT Hub, kanały CDC baz danych
- Zdarzenia w ramach Fabric: zmiany elementów obszaru roboczego, operacje na plikach OneLake
- Zdarzenia platformy Azure: zdarzenia usługi Azure Blob Storage
- Źródła zewnętrzne: Apache Kafka, Amazon Kinesis, Google Cloud Pub/Sub
Uwaga / Notatka
Łączenie i przekształcanie nowych źródeł przesyłania strumieniowego obejmuje bardziej zaawansowaną konfigurację niż opisano w tym module. Aby uzyskać więcej informacji na temat pracy ze strumieniami zdarzeń, zobacz Omówienie strumieni zdarzeń usługi Microsoft Fabric.