Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Pozyskiwanie danych obejmuje ładowanie danych do tabeli w klastrze. Usługa Azure Data Explorer zapewnia ważność danych, konwertuje formaty zgodnie z potrzebami i wykonuje manipulacje, takie jak dopasowywanie schematu, organizacja, indeksowanie, kodowanie i kompresja. Po pozyskaniu dane są dostępne dla zapytań.
Usługa Azure Data Explorer oferuje jednorazowe załadowanie danych lub utworzenie potoku ciągłego załadowania danych przez przesył strumieniowy lub kolejkowanie danych. Aby określić, który z nich jest odpowiedni dla Ciebie, zobacz Jednorazowe pozyskiwanie danych i Ciągłe pozyskiwanie danych.
Uwaga
Dane są utrwalane w magazynie zgodnie z ustawionymi zasadami przechowywania.
Jednorazowe pozyskiwanie danych
Jednorazowe pozyskiwanie jest przydatne w przypadku transferu danych historycznych, wypełniania brakujących danych oraz początkowych etapów tworzenia prototypów i analizy danych. Takie podejście ułatwia szybką integrację danych bez konieczności długoterminowego użycia potoku.
Istnieje wiele sposobów jednorazowego pozyskiwania danych. Użyj następującego drzewa decyzyjnego, aby określić najbardziej odpowiednią opcję dla danego przypadku użycia:
Aby uzyskać więcej informacji, zobacz odpowiednią dokumentację:
Wywołanie | Odpowiednia dokumentacja |
---|---|
![]() |
Zobacz formaty danych obsługiwane przez usługę Azure Data Explorer na potrzeby pozyskiwania. |
![]() |
Zobacz formaty plików obsługiwane dla potoków usługi Azure Data Factory. |
![]() |
Aby zaimportować dane z istniejącego systemu magazynu, zobacz Jak pozyskiwać dane historyczne do usługi Azure Data Explorer. |
![]() |
W internetowym interfejsie użytkownika usługi Azure Data Explorer możesz pobrać dane z pliku lokalnego, usługi Amazon S3 lub Usługi Azure Storage. |
![]() |
Aby zintegrować się z usługą Azure Data Factory, zobacz Kopiowanie danych do usługi Azure Data Explorer przy użyciu usługi Azure Data Factory. |
![]() |
Biblioteki klienta Kusto są dostępne dla języków C#, Python, Java, JavaScript, TypeScript i Go. Możesz napisać kod, aby manipulować danymi, a następnie użyć biblioteki pozyskiwania Kusto do pozyskiwania danych do tabeli usługi Azure Data Explorer. Dane muszą znajdować się w jednym z obsługiwanych formatów przed pozyskiwaniem. |
Ciągłe pozyskiwanie danych
Ciągłe pozyskiwanie wyróżnia się w sytuacjach wymagających natychmiastowych szczegółowych informacji z danych na żywo. Na przykład ciągłe gromadzenie danych jest przydatne w przypadku systemów monitorowania danych, danych dziennika zdarzeń oraz analizy w czasie rzeczywistym.
Ciągłe pozyskiwanie danych obejmuje skonfigurowanie potoku przetwarzania przy użyciu przesyłania strumieniowego lub kolejkowania.
Przyjmowanie danych strumieniowych: ta metoda zapewnia opóźnienie niemal w czasie rzeczywistym dla małych zestawów danych na tabelę. Dane są pozyskiwane w mikrosadach ze źródła przesyłania strumieniowego, początkowo umieszczane w magazynie wierszy, a następnie przesyłane do zakresów magazynu kolumn. Aby uzyskać więcej informacji, zobacz Konfigurowanie przetwarzania przesyłania strumieniowego.
Ingestja w kolejce: Ta metoda jest zoptymalizowana pod kątem wysokiej przepustowości ingestji. Dane są wsadowe oparte na właściwościach pozyskiwania, z małymi partiami, a następnie scalane i zoptymalizowane pod kątem szybkich wyników zapytań. Domyślnie maksymalne wartości w kolejce to 5 minut, 1000 elementów lub całkowity rozmiar 1 GB. Limit rozmiaru danych dla polecenia przetwarzania w kolejce wynosi 6 GB. Ta metoda używa mechanizmów ponawiania prób w celu wyeliminowania przejściowych błędów i jest zgodna z semantykami komunikatów "co najmniej raz", aby upewnić się, że żadne komunikaty nie zostaną utracone w procesie. Aby uzyskać więcej informacji na temat kolejkowanego pozyskiwania, zobacz Zasady kolejkowania pozyskiwania.
Uwaga
W przypadku większości scenariuszy zalecamy użycie pozyskiwania w kolejce, ponieważ jest to bardziej wydajna opcja.
Uwaga
Kolejkowanie pobierania danych zapewnia niezawodne buforowanie danych przez maksymalnie 7 dni. Jeśli jednak klaster nie ma wystarczającej pojemności do ukończenia przetwarzania w tym oknie retencji, dane zostaną odrzucone po przekroczonym limicie 7 dni. Aby uniknąć opóźnień w utracie danych i pozyskiwaniu danych, upewnij się, że klaster ma wystarczającą ilość zasobów do przetwarzania danych w kolejce w ciągu 7 dni.
Istnieje wiele sposobów konfigurowania ciągłego pozyskiwania danych. Użyj następującego drzewa decyzyjnego, aby określić najbardziej odpowiednią opcję dla danego przypadku użycia:
Aby uzyskać więcej informacji, zobacz odpowiednią dokumentację:
Wywołanie | Odpowiednia dokumentacja |
---|---|
![]() |
Aby uzyskać listę łączników, zobacz Omówienie łączników. |
![]() |
Utwórz połączenie danych usługi Event Hubs. Integracja z usługą Event Hubs zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty. |
![]() |
Pozyskiwanie danych z platformy Apache Kafka, rozproszonej platformy przesyłania strumieniowego do tworzenia potoków danych przesyłanych strumieniowo w czasie rzeczywistym. |
![]() |
Utwórz połączenie danych usługi IoT Hub. Integracja z usługą IoT Hubs zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty. |
![]() |
Utwórz połączenie danych Event Grid. Integracja z usługą Event Grid zapewnia usługi, takie jak ograniczanie przepustowości, ponawianie prób, monitorowanie i alerty. |
![]() |
Zapoznaj się ze wskazówkami dotyczącymi odpowiedniego łącznika, takiego jak Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk i nie tylko. Aby uzyskać więcej informacji, zobacz Omówienie łączników. |
![]() |
Biblioteki klienta Kusto są dostępne dla języków C#, Python, Java, JavaScript, TypeScript i Go. Możesz napisać kod, aby manipulować danymi, a następnie użyć biblioteki pozyskiwania Kusto do pozyskiwania danych do tabeli usługi Azure Data Explorer. Dane muszą znajdować się w jednym z obsługiwanych formatów przed pozyskiwaniem. |
Uwaga
Pozyskiwanie strumieniowe nie jest obsługiwane dla wszystkich metod pozyskiwania. Aby uzyskać szczegółowe informacje o pomocy technicznej, zapoznaj się z dokumentacją określonej metody pozyskiwania.
Bezpośrednie wprowadzanie za pomocą poleceń zarządzania
Azure Data Explorer oferuje następujące polecenia zarządzania ładowaniem danych, które pozyskują dane bezpośrednio do klastra, zamiast korzystać z usługi zarządzania danymi. One powinny być używane tylko do eksploracji i tworzenia prototypów, a nie w środowiskach produkcyjnych lub w sytuacjach z dużym obciążeniem.
- Pozyskiwanie wbudowane: polecenie pozyskiwania w tekście zawiera dane, które mają być częścią samego tekstu polecenia. Ta metoda jest przeznaczona do improwizowanych celów testowych.
- Pozyskiwanie z zapytania: polecenia .set, .append, .set-or-append lub .set-or-replace pośrednio określają dane do pozyskiwania jako wyników zapytania lub polecenia.
- Pozyskiwanie z magazynu: pozyskiwanie do polecenia pobiera dane do pozyskiwania z magazynu zewnętrznego, takiego jak usługa Azure Blob Storage, dostępna dla klastra i wskazywana przez polecenie .
Uwaga
W przypadku awarii pobieranie jest wykonywane ponownie i ponawiane przez maksymalnie 48 godzin przy użyciu metody wykładniczego opóźnienia na czas oczekiwania między próbami.
Porównanie metod pozyskiwania
W poniższej tabeli porównano główne metody wprowadzania:
Nazwa pozyskiwania | Typ danych | Maksymalna wielkość pliku | Przesyłanie strumieniowe, kolejkowane, bezpośrednie | Najbardziej typowe scenariusze | Kwestie wymagające rozważenia |
---|---|---|---|---|---|
Łącznik Apache Spark | Każdy format obsługiwany przez środowisko Platformy Spark | Nieograniczony | W kolejce | Istniejący potok, wstępne przetwarzanie w Spark przed przyjmowaniem danych, szybki sposób tworzenia bezpiecznego potoku przesyłania strumieniowego (Spark) z różnych źródeł obsługiwanych przez środowisko Spark. | Rozważ koszt klastra Spark. W przypadku zapisu wsadowego porównaj je z połączeniem danych usługi Azure Data Explorer dla usługi Event Grid. W przypadku strumieniowania w Spark, porównaj z połączeniem danych z centrum zdarzeń. |
Azure Data Factory (ADF) | Obsługiwane formaty danych | Nieograniczony. Dziedziczy ograniczenia ADF. | W kolejce lub na podstawie wyzwalacza ADF | Obsługuje nieobsługiwane formaty, takie jak excel i XML, i mogą kopiować duże pliki z ponad 90 źródeł ze środowiska lokalnego do chmury | Ta metoda zajmuje stosunkowo więcej czasu do momentu pozyskiwania danych. Usługa ADF ładuje wszystkie dane do pamięci, po czym rozpoczyna pozyskiwanie. |
Event Grid | Obsługiwane formaty danych | Nieskompresowane 1 GB | W kolejce | Ciągłe przyjmowanie danych z usługi Azure Storage, dane zewnętrzne przechowywane w usłudze Azure Storage | Pozyskiwanie może być wyzwalane przez akcje zmiany nazw obiektów blob lub tworzenia obiektów blob |
Centrum zdarzeń | Obsługiwane formaty danych | Nie dotyczy | W kolejce, przesyłanie strumieniowe | Komunikaty, zdarzenia | |
Zdobądź doświadczenie w pracy z danymi | *SV, JSON | Nieskompresowane 1 GB | Ingestia w kolejce lub bezpośrednia | Jednorazowe tworzenie schematu tabeli, definicja ciągłego przyjmowania za pomocą usługi Event Grid, zbiorcze przyjmowanie z kontenerem (do 5000 blobów; brak limitu w przypadku korzystania z przyjmowania historycznego) | |
Iot | Obsługiwane formaty danych | Nie dotyczy | W kolejce, przesyłanie strumieniowe | Komunikaty IoT, zdarzenia IoT, właściwości IoT | |
Łącznik Kafka | Avro, ApacheAvro, JSON, CSV, Parquet i ORC | Nieograniczony. Dziedziczy ograniczenia języka Java. | W kolejce, przesyłanie strumieniowe | Istniejący rurociąg, duże zużycie ze źródła. | Preferencję można określić za pomocą istniejącego użycia wielu producentów lub usług konsumenckich lub żądanego poziomu zarządzania usługami. |
Biblioteki klienckie usługi Kusto | Obsługiwane formaty danych | Nieskompresowane 1 GB | Kolejkowane, przesyłane strumieniowo, bezpośrednie | Pisanie własnego kodu zgodnie z potrzebami organizacji | Pozyskiwanie programowe jest zoptymalizowane pod kątem zmniejszenia kosztów pozyskiwania (COGs), minimalizując transakcje magazynowania podczas i po procesie pozyskiwania. |
Najświeższe światło | Obsługiwane formaty danych | Nieskompresowane 1 GB | Ingestia w kolejce lub bezpośrednia | Migracja danych, dane historyczne z dostosowanymi znacznikami czasu importowania, importowanie zbiorcze | Uwzględniająca wielkość liter i rozróżnianie spacji |
Logic Apps | Obsługiwane formaty danych | Nieskompresowane 1 GB | W kolejce | Służy do automatyzowania potoków | |
Usługa LogStash | JSON (JavaScript Object Notation) | Nieograniczony. Dziedziczy ograniczenia języka Java. | W kolejce | Istniejący potok – wykorzystaj dojrzałe, oprogramowanie open source Logstash do obsługi dużej ilości danych z wejść. | Preferencję można określić za pomocą istniejącego użycia wielu producentów lub usług konsumenckich lub żądanego poziomu zarządzania usługami. |
Power Automate | Obsługiwane formaty danych | Nieskompresowane 1 GB | W kolejce | Polecenia wprowadzania w ramach przepływu pracy. Służy do automatyzowania potoków. |
Aby uzyskać informacje na temat innych łączników, zobacz Omówienie łączników.
Uprawnienia
Na poniższej liście opisano wymagane uprawnienia dla różnych scenariuszy przejęcia danych:
- Aby utworzyć nową tabelę, musisz mieć co najmniej uprawnienia użytkownika bazy danych.
- Aby pozyskać dane do istniejącej tabeli, bez zmiany jego schematu, musisz mieć co najmniej uprawnienia ingestor tabeli.
- Aby zmienić schemat istniejącej tabeli, musisz mieć co najmniej uprawnienia administratora tabeli lub administratora bazy danych.
W poniższej tabeli opisano uprawnienia wymagane dla każdej metody wprowadzania danych.
Metoda wprowadzania | Uprawnienia |
---|---|
Jednorazowe pozyskiwanie | Co najmniej ingestor tabeli |
Ciągłe przyjmowanie danych przesyłanych strumieniowo | Co najmniej ingestor tabeli |
Ciągłe wczytywanie w kolejce | Co najmniej ingestor tabeli |
Bezpośrednie wprowadzenie w trakcie procesu | Co najmniej ingestor tabel, a także podgląd bazy danych |
Bezpośrednie pozyskiwanie z zapytania | Co najmniej ingestor tabel, a także podgląd bazy danych |
Bezpośrednie pozyskiwanie z magazynu | Co najmniej ingestor tabeli |
Aby uzyskać więcej informacji, zobacz Kusto role-based access control (Kontrola dostępu oparta na rolach w usłudze Kusto).
Proces wczytywania
Poniższe kroki opisują ogólny proces przyjęcia:
Ustaw zasady wsadowania (opcjonalnie): Dane są gromadzone na podstawie polityki wsadowania pozyskiwania. Aby uzyskać wskazówki, zobacz Optymalizowanie pod kątem przepływności.
Ustaw zasady przechowywania (opcjonalnie): jeśli zasady przechowywania bazy danych nie są odpowiednie dla Twoich potrzeb, przesłoń je na poziomie tabeli. Aby uzyskać więcej informacji, zapoznaj się z zasadami przechowywania.
Utwórz tabelę: jeśli używasz funkcji Pobieranie danych, możesz utworzyć tabelę w ramach procesu pozyskiwania danych. W przeciwnym razie utwórz tabelę przed przetwarzaniem w internetowym interfejsie użytkownika usługi Azure Data Explorer lub za pomocą polecenia .create table.
Tworzenie mapowania schematu: mapowania schematów ułatwiają powiązanie pól danych źródłowych z kolumnami tabeli docelowej. Obsługiwane są różne typy mapowań, w tym formaty zorientowane na wiersze, takie jak CSV, JSON i AVRO oraz formaty zorientowane na kolumny, takie jak Parquet. W większości metod mapowania można również wstępnie utworzyć w tabeli.
Ustaw zasady aktualizacji (opcjonalnie): Niektóre formaty danych, takie jak Parquet, JSON i Avro, umożliwiają łatwe przekształcenia podczas pozyskiwania danych. Aby uzyskać bardziej skomplikowane przetwarzanie podczas pozyskiwania, użyj zasad aktualizacji. Te zasady automatycznie wykonują wyodrębniania i przekształcenia pozyskanych danych w oryginalnej tabeli, a następnie pozyskuje zmodyfikowane dane w co najmniej jednej tabeli docelowej.
Pozyskiwanie danych: użyj preferowanego narzędzia pozyskiwania, łącznika lub metody, aby wprowadzić dane.