Omówienie pozyskiwania danych w usłudze Azure Data Explorer

2025-05-29

Pozyskiwanie danych obejmuje ładowanie danych do tabeli w klastrze. Usługa Azure Data Explorer zapewnia ważność danych, konwertuje formaty zgodnie z potrzebami i wykonuje manipulacje, takie jak dopasowywanie schematu, organizacja, indeksowanie, kodowanie i kompresja. Po pozyskaniu dane są dostępne dla zapytań.

Usługa Azure Data Explorer oferuje jednorazowe załadowanie danych lub utworzenie potoku ciągłego załadowania danych przez przesył strumieniowy lub kolejkowanie danych. Aby określić, który z nich jest odpowiedni dla Ciebie, zobacz Jednorazowe pozyskiwanie danych i Ciągłe pozyskiwanie danych.

Uwaga

Dane są utrwalane w magazynie zgodnie z ustawionymi zasadami przechowywania.

Jednorazowe pozyskiwanie danych

Jednorazowe pozyskiwanie jest przydatne w przypadku transferu danych historycznych, wypełniania brakujących danych oraz początkowych etapów tworzenia prototypów i analizy danych. Takie podejście ułatwia szybką integrację danych bez konieczności długoterminowego użycia potoku.

Istnieje wiele sposobów jednorazowego pozyskiwania danych. Użyj następującego drzewa decyzyjnego, aby określić najbardziej odpowiednią opcję dla danego przypadku użycia:

Aby uzyskać więcej informacji, zobacz odpowiednią dokumentację:

Wywołanie	Odpowiednia dokumentacja
	Zobacz formaty danych obsługiwane przez usługę Azure Data Explorer na potrzeby pozyskiwania.
	Zobacz formaty plików obsługiwane dla potoków usługi Azure Data Factory.
	Aby zaimportować dane z istniejącego systemu magazynu, zobacz Jak pozyskiwać dane historyczne do usługi Azure Data Explorer.
	W internetowym interfejsie użytkownika usługi Azure Data Explorer możesz pobrać dane z pliku lokalnego, usługi Amazon S3 lub Usługi Azure Storage.
	Aby zintegrować się z usługą Azure Data Factory, zobacz Kopiowanie danych do usługi Azure Data Explorer przy użyciu usługi Azure Data Factory.
	Biblioteki klienta Kusto są dostępne dla języków C#, Python, Java, JavaScript, TypeScript i Go. Możesz napisać kod, aby manipulować danymi, a następnie użyć biblioteki pozyskiwania Kusto do pozyskiwania danych do tabeli usługi Azure Data Explorer. Dane muszą znajdować się w jednym z obsługiwanych formatów przed pozyskiwaniem.

Ciągłe pozyskiwanie danych

Ciągłe pozyskiwanie wyróżnia się w sytuacjach wymagających natychmiastowych szczegółowych informacji z danych na żywo. Na przykład ciągłe gromadzenie danych jest przydatne w przypadku systemów monitorowania danych, danych dziennika zdarzeń oraz analizy w czasie rzeczywistym.

Ciągłe pozyskiwanie danych obejmuje skonfigurowanie potoku przetwarzania przy użyciu przesyłania strumieniowego lub kolejkowania.

Przyjmowanie danych strumieniowych: ta metoda zapewnia opóźnienie niemal w czasie rzeczywistym dla małych zestawów danych na tabelę. Dane są pozyskiwane w mikrosadach ze źródła przesyłania strumieniowego, początkowo umieszczane w magazynie wierszy, a następnie przesyłane do zakresów magazynu kolumn. Aby uzyskać więcej informacji, zobacz Konfigurowanie przetwarzania przesyłania strumieniowego.
Ingestja w kolejce: Ta metoda jest zoptymalizowana pod kątem wysokiej przepustowości ingestji. Dane są wsadowe oparte na właściwościach pozyskiwania, z małymi partiami, a następnie scalane i zoptymalizowane pod kątem szybkich wyników zapytań. Domyślnie maksymalne wartości w kolejce to 5 minut, 1000 elementów lub całkowity rozmiar 1 GB. Limit rozmiaru danych dla polecenia przetwarzania w kolejce wynosi 6 GB. Ta metoda używa mechanizmów ponawiania prób w celu wyeliminowania przejściowych błędów i jest zgodna z semantykami komunikatów "co najmniej raz", aby upewnić się, że żadne komunikaty nie zostaną utracone w procesie. Aby uzyskać więcej informacji na temat kolejkowanego pozyskiwania, zobacz Zasady kolejkowania pozyskiwania.

Uwaga

W przypadku większości scenariuszy zalecamy użycie pozyskiwania w kolejce, ponieważ jest to bardziej wydajna opcja.

Uwaga

Kolejkowanie pobierania danych zapewnia niezawodne buforowanie danych przez maksymalnie 7 dni. Jeśli jednak klaster nie ma wystarczającej pojemności do ukończenia przetwarzania w tym oknie retencji, dane zostaną odrzucone po przekroczonym limicie 7 dni. Aby uniknąć opóźnień w utracie danych i pozyskiwaniu danych, upewnij się, że klaster ma wystarczającą ilość zasobów do przetwarzania danych w kolejce w ciągu 7 dni.

Istnieje wiele sposobów konfigurowania ciągłego pozyskiwania danych. Użyj następującego drzewa decyzyjnego, aby określić najbardziej odpowiednią opcję dla danego przypadku użycia:

Aby uzyskać więcej informacji, zobacz odpowiednią dokumentację:

Wywołanie	Odpowiednia dokumentacja
	Aby uzyskać listę łączników, zobacz Omówienie łączników.
	Utwórz połączenie danych usługi Event Hubs. Integracja z usługą Event Hubs zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty.
	Pozyskiwanie danych z platformy Apache Kafka, rozproszonej platformy przesyłania strumieniowego do tworzenia potoków danych przesyłanych strumieniowo w czasie rzeczywistym.
	Utwórz połączenie danych usługi IoT Hub. Integracja z usługą IoT Hubs zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty.
	Utwórz połączenie danych Event Grid. Integracja z usługą Event Grid zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty.
	Zapoznaj się ze wskazówkami dotyczącymi odpowiedniego łącznika, takiego jak Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk i nie tylko. Aby uzyskać więcej informacji, zobacz Omówienie łączników.
	Biblioteki klienta Kusto są dostępne dla języków C#, Python, Java, JavaScript, TypeScript i Go. Możesz napisać kod, aby manipulować danymi, a następnie użyć biblioteki pozyskiwania Kusto do pozyskiwania danych do tabeli usługi Azure Data Explorer. Dane muszą znajdować się w jednym z obsługiwanych formatów przed pozyskiwaniem.

Uwaga

Pozyskiwanie strumieniowe nie jest obsługiwane dla wszystkich metod pozyskiwania. Aby uzyskać szczegółowe informacje o pomocy technicznej, zapoznaj się z dokumentacją określonej metody pozyskiwania.

Bezpośrednie wprowadzanie za pomocą poleceń zarządzania

Azure Data Explorer oferuje następujące polecenia zarządzania ładowaniem danych, które pozyskują dane bezpośrednio do klastra, zamiast korzystać z usługi zarządzania danymi. One powinny być używane tylko do eksploracji i tworzenia prototypów, a nie w środowiskach produkcyjnych lub w sytuacjach z dużym obciążeniem.

Pozyskiwanie wbudowane: polecenie pozyskiwania w tekście zawiera dane, które mają być częścią samego tekstu polecenia. Ta metoda jest przeznaczona do improwizowanych celów testowych.
Pozyskiwanie z zapytania: polecenia .set, .append, .set-or-append lub .set-or-replace pośrednio określają dane do pozyskiwania jako wyników zapytania lub polecenia.
Pozyskiwanie z magazynu: pozyskiwanie do polecenia pobiera dane do pozyskiwania z magazynu zewnętrznego, takiego jak usługa Azure Blob Storage, dostępna dla klastra i wskazywana przez polecenie .

Uwaga

W przypadku awarii pobieranie jest wykonywane ponownie i ponawiane przez maksymalnie 48 godzin przy użyciu metody wykładniczego opóźnienia na czas oczekiwania między próbami.

Porównanie metod pozyskiwania

W poniższej tabeli porównano główne metody wprowadzania:

Nazwa pozyskiwania	Typ danych	Maksymalna wielkość pliku	Przesyłanie strumieniowe, kolejkowane, bezpośrednie	Najbardziej typowe scenariusze	Kwestie wymagające rozważenia
Łącznik Apache Spark	Każdy format obsługiwany przez środowisko Platformy Spark	Nieograniczony	W kolejce	Istniejący potok, wstępne przetwarzanie w Spark przed przyjmowaniem danych, szybki sposób tworzenia bezpiecznego potoku przesyłania strumieniowego (Spark) z różnych źródeł obsługiwanych przez środowisko Spark.	Rozważ koszt klastra Spark. W przypadku zapisu wsadowego porównaj je z połączeniem danych usługi Azure Data Explorer dla usługi Event Grid. W przypadku strumieniowania w Spark, porównaj z połączeniem danych z centrum zdarzeń.
Azure Data Factory (ADF)	Obsługiwane formaty danych	Nieograniczony. Dziedziczy ograniczenia ADF.	W kolejce lub na podstawie wyzwalacza ADF	Obsługuje nieobsługiwane formaty, takie jak excel i XML, i mogą kopiować duże pliki z ponad 90 źródeł ze środowiska lokalnego do chmury	Ta metoda zajmuje stosunkowo więcej czasu do momentu pozyskiwania danych. Usługa ADF ładuje wszystkie dane do pamięci, po czym rozpoczyna pozyskiwanie.
Event Grid	Obsługiwane formaty danych	Nieskompresowane 1 GB	W kolejce	Ciągłe przyjmowanie danych z usługi Azure Storage, dane zewnętrzne przechowywane w usłudze Azure Storage	Pozyskiwanie może być wyzwalane przez akcje zmiany nazw obiektów blob lub tworzenia obiektów blob
Centrum zdarzeń	Obsługiwane formaty danych	Nie dotyczy	W kolejce, przesyłanie strumieniowe	Komunikaty, zdarzenia
Zdobądź doświadczenie w pracy z danymi	*SV, JSON	Nieskompresowane 1 GB	Ingestia w kolejce lub bezpośrednia	Jednorazowe tworzenie schematu tabeli, definicja ciągłego przyjmowania za pomocą usługi Event Grid, zbiorcze przyjmowanie z kontenerem (do 5000 blobów; brak limitu w przypadku korzystania z przyjmowania historycznego)
Iot	Obsługiwane formaty danych	Nie dotyczy	W kolejce, przesyłanie strumieniowe	Komunikaty IoT, zdarzenia IoT, właściwości IoT
Łącznik Kafka	Avro, ApacheAvro, JSON, CSV, Parquet i ORC	Nieograniczony. Dziedziczy ograniczenia języka Java.	W kolejce, przesyłanie strumieniowe	Istniejący rurociąg, duże zużycie ze źródła.	Preferencję można określić za pomocą istniejącego użycia wielu producentów lub usług konsumenckich lub żądanego poziomu zarządzania usługami.
Biblioteki klienckie usługi Kusto	Obsługiwane formaty danych	Nieskompresowane 1 GB	Kolejkowane, przesyłane strumieniowo, bezpośrednie	Pisanie własnego kodu zgodnie z potrzebami organizacji	Pozyskiwanie programowe jest zoptymalizowane pod kątem zmniejszenia kosztów pozyskiwania (COGs), minimalizując transakcje magazynowania podczas i po procesie pozyskiwania.
Najświeższe światło	Obsługiwane formaty danych	Nieskompresowane 1 GB	Ingestia w kolejce lub bezpośrednia	Migracja danych, dane historyczne z dostosowanymi znacznikami czasu importowania, importowanie zbiorcze	Uwzględniająca wielkość liter i rozróżnianie spacji
Logic Apps	Obsługiwane formaty danych	Nieskompresowane 1 GB	W kolejce	Służy do automatyzowania potoków
Usługa LogStash	JSON (JavaScript Object Notation)	Nieograniczony. Dziedziczy ograniczenia języka Java.	W kolejce	Istniejący potok – wykorzystaj dojrzałe, oprogramowanie open source Logstash do obsługi dużej ilości danych z wejść.	Preferencję można określić za pomocą istniejącego użycia wielu producentów lub usług konsumenckich lub żądanego poziomu zarządzania usługami.
Power Automate	Obsługiwane formaty danych	Nieskompresowane 1 GB	W kolejce	Polecenia wprowadzania w ramach przepływu pracy. Służy do automatyzowania potoków.

Aby uzyskać informacje na temat innych łączników, zobacz Omówienie łączników.

Uprawnienia

Na poniższej liście opisano wymagane uprawnienia dla różnych scenariuszy przejęcia danych:

Aby utworzyć nową tabelę, musisz mieć co najmniej uprawnienia użytkownika bazy danych.
Aby pozyskać dane do istniejącej tabeli, bez zmiany jego schematu, musisz mieć co najmniej uprawnienia ingestor tabeli.
Aby zmienić schemat istniejącej tabeli, musisz mieć co najmniej uprawnienia administratora tabeli lub administratora bazy danych.

W poniższej tabeli opisano uprawnienia wymagane dla każdej metody wprowadzania danych.

Metoda wprowadzania	Uprawnienia
Jednorazowe pozyskiwanie	Co najmniej ingestor tabeli
Ciągłe przyjmowanie danych przesyłanych strumieniowo	Co najmniej ingestor tabeli
Ciągłe wczytywanie w kolejce	Co najmniej ingestor tabeli
Bezpośrednie wprowadzenie w trakcie procesu	Co najmniej ingestor tabel, a także podgląd bazy danych
Bezpośrednie pozyskiwanie z zapytania	Co najmniej ingestor tabel, a także podgląd bazy danych
Bezpośrednie pozyskiwanie z magazynu	Co najmniej ingestor tabeli

Aby uzyskać więcej informacji, zobacz Kusto role-based access control (Kontrola dostępu oparta na rolach w usłudze Kusto).

Proces wczytywania

Poniższe kroki opisują ogólny proces przyjęcia:

Ustaw zasady wsadowania (opcjonalnie): Dane są gromadzone na podstawie polityki wsadowania pozyskiwania. Aby uzyskać wskazówki, zobacz Optymalizowanie pod kątem przepływności.
Ustaw zasady przechowywania (opcjonalnie): jeśli zasady przechowywania bazy danych nie są odpowiednie dla Twoich potrzeb, przesłoń je na poziomie tabeli. Aby uzyskać więcej informacji, zapoznaj się z zasadami przechowywania.
Utwórz tabelę: jeśli używasz funkcji Pobieranie danych, możesz utworzyć tabelę w ramach procesu pozyskiwania danych. W przeciwnym razie utwórz tabelę przed przetwarzaniem w internetowym interfejsie użytkownika usługi Azure Data Explorer lub za pomocą polecenia .create table.
Tworzenie mapowania schematu: mapowania schematów ułatwiają powiązanie pól danych źródłowych z kolumnami tabeli docelowej. Obsługiwane są różne typy mapowań, w tym formaty zorientowane na wiersze, takie jak CSV, JSON i AVRO oraz formaty zorientowane na kolumny, takie jak Parquet. W większości metod mapowania można również wstępnie utworzyć w tabeli.
Ustaw zasady aktualizacji (opcjonalnie): Niektóre formaty danych, takie jak Parquet, JSON i Avro, umożliwiają łatwe przekształcenia podczas pozyskiwania danych. Aby uzyskać bardziej skomplikowane przetwarzanie podczas pozyskiwania, użyj zasad aktualizacji. Te zasady automatycznie wykonują wyodrębniania i przekształcenia pozyskanych danych w oryginalnej tabeli, a następnie pozyskuje zmodyfikowane dane w co najmniej jednej tabeli docelowej.
Pozyskiwanie danych: użyj preferowanego narzędzia pozyskiwania, łącznika lub metody, aby wprowadzić dane.

Udostępnij za pośrednictwem

Omówienie pozyskiwania danych w usłudze Azure Data Explorer

Jednorazowe pozyskiwanie danych

Ciągłe pozyskiwanie danych

Bezpośrednie wprowadzanie za pomocą poleceń zarządzania

Porównanie metod pozyskiwania

Uprawnienia

Proces wczytywania

Powiązana zawartość

Opinia

Dodatkowe zasoby