Co to jest Azure Synapse Data Explorer? (Wersja zapoznawcza)

Azure Synapse Data Explorer zapewnia klientom interaktywne środowisko zapytań w celu odblokowania szczegółowych informacji z danych dzienników i telemetrii. Aby uzupełnić istniejące aparaty środowiska uruchomieniowego analizy SQL i Apache Spark, środowisko uruchomieniowe analizy Data Explorer jest zoptymalizowane pod kątem wydajnej analizy dzienników przy użyciu zaawansowanych technologii indeksowania w celu automatycznego indeksowania danych bez tekstu i częściowo ustrukturyzowanych często występujących w danych telemetrycznych.

Diagram przedstawiający architekturę Azure Synapse.

Aby dowiedzieć się więcej, zobacz następujący film wideo:

Co sprawia, że Azure Synapse Data Explorer unikatowe?

  • Łatwe pozyskiwanie — Data Explorer oferuje wbudowane integracje bez kodu/niskiego poziomu kodu, pozyskiwania danych o wysokiej przepływności i buforowania danych ze źródeł czasu rzeczywistego. Dane można pozyskiwać ze źródeł, takich jak Azure Event Hubs, Kafka, Azure Data Lake, open source agentów, takich jak Fluentd/Fluent Bit, oraz szerokiej gamy źródeł danych w chmurze i lokalnych.

  • Brak złożonego modelowania danych — w przypadku Data Explorer nie ma potrzeby tworzenia złożonych modeli danych i nie ma potrzeby tworzenia złożonych skryptów w celu przekształcania danych przed ich użyciem.

  • Brak konserwacji indeksu — nie ma potrzeby wykonywania zadań konserwacji, aby zoptymalizować dane pod kątem wydajności zapytań i nie ma potrzeby konserwacji indeksu. Dzięki Data Explorer wszystkie nieprzetworzone dane są natychmiast dostępne, co umożliwia uruchamianie zapytań o wysoką wydajność i wysoką współbieżność na danych przesyłanych strumieniowo i trwałych. Za pomocą tych zapytań można tworzyć pulpity nawigacyjne i alerty niemal w czasie rzeczywistym oraz łączyć dane analizy operacyjnej z resztą platformy analizy danych.

  • Demokratyzacja analizy danych — Data Explorer demokratyzuje samoobsługową analizę danych big data dzięki intuicyjnemu język zapytań Kusto (KQL), który zapewnia ekspresywność i moc języka SQL z prostotą programu Excel. Język KQL jest wysoce zoptymalizowany pod kątem eksplorowania nieprzetworzonych danych telemetrycznych i szeregów czasowych, wykorzystując najlepszą w klasie technologię indeksowania tekstu w klasie Data Explorer w celu wydajnego wyszukiwania bez tekstu i regex oraz kompleksowych możliwości analizowania danych śledzenia\tekstu i danych częściowo ustrukturyzowanych JSON, w tym tablic i struktur zagnieżdżonych. Język KQL oferuje zaawansowaną obsługę szeregów czasowych do tworzenia, manipulowania i analizowania wielu szeregów czasowych z obsługą wykonywania w języku Python w aparatze w języku Python na potrzeby oceniania modelu.

  • Sprawdzona technologia w skali petabajtów — Data Explorer to rozproszony system z zasobami obliczeniowymi i magazynem, który może być skalowany niezależnie, umożliwiając analizę gigabajtów lub petabajtów danych.

  • Zintegrowane — usługa Azure Synapse Analytics zapewnia współdziałanie danych między Data Explorer, aparatami Apache Spark i SQL, które umożliwiają inżynierom danych, analitykom danych i analitykom danych łatwe i bezpieczne uzyskiwanie dostępu do tych samych danych w usłudze Data Lake oraz współpracę nad nimi.

Kiedy używać Azure Synapse Data Explorer?

Użyj Data Explorer jako platformy danych do tworzenia rozwiązań do analizy dzienników niemal w czasie rzeczywistym i analizy IoT w celu wykonywania następujących czynności:

  • Konsoliduj i koreluj dzienniki i dane zdarzeń w źródłach danych lokalnych, w chmurze i innych firm.

  • Przyspiesz podróż po operacje sztucznej inteligencji (rozpoznawanie wzorców, wykrywanie anomalii, prognozowanie i nie tylko).

  • Zastąp rozwiązania do wyszukiwania dzienników oparte na infrastrukturze, aby zaoszczędzić koszty i zwiększyć produktywność.

  • Tworzenie rozwiązań analitycznych IoT dla danych IoT.

  • Tworzenie rozwiązań SaaS do analizy w celu oferowania usług klientom wewnętrznym i zewnętrznym.

architektura puli Data Explorer

Data Explorer pule implementują architekturę skalowania w poziomie, oddzielając zasoby obliczeniowe i magazynowe. Dzięki temu można niezależnie skalować każdy zasób, a na przykład uruchamiać wiele obliczeń tylko do odczytu na tych samych danych. Data Explorer pule składają się z zestawu zasobów obliczeniowych z uruchomionym aparatem odpowiedzialnym za automatyczne indeksowanie, kompresowanie, buforowanie i obsługę zapytań rozproszonych. Mają również drugi zestaw zasobów obliczeniowych z uruchomioną usługą zarządzania danymi odpowiedzialną za zadania systemu w tle oraz pozyskiwanie danych zarządzanych i w kolejce. Wszystkie dane są utrwalane na zarządzanych kontach magazynu obiektów blob przy użyciu skompresowanego formatu kolumnowego.

Data Explorer pule obsługują bogaty ekosystem pozyskiwania danych przy użyciu łączników, zestawów SDK, interfejsów API REST i innych funkcji zarządzanych. Oferuje różne sposoby korzystania z danych dla zapytań ad hoc, raportów, pulpitów nawigacyjnych, alertów, interfejsów API REST i zestawów SDK.

architektura pul Data Explorer

Istnieje wiele unikatowych możliwości, które sprawiają, że usługa Data Explore to najlepszy aparat analityczny do analizy dzienników i szeregów czasowych na platformie Azure.

W poniższych sekcjach wyróżniono kluczowe różnice.

Indeksowanie danych bez tekstu i częściowo ustrukturyzowanej umożliwia niemal w czasie rzeczywistym wysoką wydajność i wysokie współbieżne zapytania

Data Explorer indeksuje częściowo ustrukturyzowane dane (JSON) i dane bez struktury (tekst wolny), co sprawia, że uruchamianie zapytań działa dobrze na tego typu danych. Domyślnie każde pole jest indeksowane podczas pozyskiwania danych z opcją użycia zasad kodowania niskiego poziomu w celu dostosowania lub wyłączenia indeksu dla określonych pól. Zakres indeksu to pojedynczy fragment danych.

Implementacja indeksu zależy od typu pola w następujący sposób:

Typ pola Implementacja indeksowania
Ciąg Aparat tworzy odwrócony indeks terminów dla wartości kolumn ciągu. Każda wartość ciągu jest analizowana i podzielona na znormalizowane terminy oraz uporządkowaną listę pozycji logicznych, zawierającą reguły rekordów, jest rejestrowana dla każdego terminu. Wynikowa posortowana lista terminów i skojarzone z nimi pozycje są przechowywane jako niezmienne drzewo B.
Numeryczne
Data/godzina
przedział_czasu
Aparat tworzy prosty indeks przesyłania dalej opartego na zakresie. Indeks rejestruje wartości minimalne/maksymalne dla każdego bloku, dla grupy bloków i dla całej kolumny w obrębie fragmentu danych.
Dynamiczny Proces pozyskiwania wylicza wszystkie "niepodzielne" elementy w ramach wartości dynamicznej, takie jak nazwy właściwości, wartości i elementy tablicy, a następnie przekazuje je do konstruktora indeksów. Pola dynamiczne mają ten sam odwrócony indeks terminów co pola ciągu.

Te wydajne funkcje indeksowania umożliwiają eksplorowanie danych w celu udostępnienia danych niemal w czasie rzeczywistym na potrzeby zapytań o wysokiej wydajności i wysokiej współbieżności. System automatycznie optymalizuje fragmenty danych, aby zwiększyć wydajność.

Język zapytań Kusto

KQL ma dużą, rosnącą społeczność z szybkim wdrożeniem usług Azure Monitor Log Analytics i Application Insights, Microsoft Sentinel, Azure Data Explorer i innych ofert firmy Microsoft. Język jest dobrze zaprojektowany z łatwą do odczytania składnią i zapewnia płynne przejście od prostego jednowierszowego do złożonych zapytań przetwarzania danych. Dzięki temu Data Explorer zapewnić bogatą obsługę funkcji IntelliSense oraz bogaty zestaw konstrukcji językowych i wbudowanych możliwości agregacji, szeregów czasowych i analizy użytkowników, które nie są dostępne w języku SQL w celu szybkiego eksplorowania danych telemetrycznych.

Następne kroki