Formaty danych obsługiwane przez usługę Azure Data Explorer do pozyskiwania

Pozyskiwanie danych to proces dodawania danych do tabeli i udostępniania zapytań w usłudze Azure Data Explorer. W przypadku wszystkich metod pozyskiwania, innych niż pozyskiwanie z zapytania, dane muszą być w jednym z obsługiwanych formatów. W poniższej tabeli wymieniono i opisano formaty obsługiwane przez usługę Azure Data Explorer na potrzeby pozyskiwania danych.

Uwaga

Przed pozyskiwaniem danych upewnij się, że dane są prawidłowo sformatowane i definiują oczekiwane pola. Zalecamy użycie preferowanego modułu sprawdzania poprawności w celu potwierdzenia, że format jest prawidłowy. Na przykład można znaleźć następujące moduły sprawdzania poprawności przydatne do sprawdzania plików CSV lub JSON:

Aby uzyskać więcej informacji na temat przyczyn niepowodzenia pozyskiwania, zobacz Błędy pozyskiwania i Kody błędów pozyskiwania w usłudze Azure Data Explorer.

Format Rozszerzenie Opis
ApacheAvro .avro Format AVRO z obsługą typów logicznych. Obsługiwane są następujące koderki kompresji: null, deflatei snappy. Implementacja czytnika apacheavro formatu jest oparta na oficjalnej bibliotece Apache Avro. Aby uzyskać informacje na temat pozyskiwania plików Avro przechwytywania centrum zdarzeń, zobacz Pozyskiwanie plików Avro przechwytywania centrum zdarzeń.
Avro .avro Starsza implementacja formatu AVRO oparta na bibliotece .NET. Obsługiwane są następujące koderki kompresji: null, deflate (dla snappy — użyj ApacheAvro formatu danych).
CSV .csv Plik tekstowy z wartościami rozdzielanymi przecinkami (,). Zobacz RFC 4180: Common Format i MIME Type for Comma-Separated Values (CSV).
JSON .json Plik tekstowy z obiektami JSON rozdzielanymi przez \n lub \r\n. Zobacz Wiersze JSON (JSONL).
MultiJSON .multijson Plik tekstowy z tablicą JSON torby właściwości (każdy reprezentujący rekord) lub dowolną liczbę worków właściwości rozdzielonych białym znakiem \n lub \r\n. Każda torba właściwości może być rozłożona na wiele linii.
ORC .orc Plik ORC.
Parquet .parquet Plik Parquet.
PSV .psv Plik tekstowy z wartościami rozdzielanymi potokami (|).
RAW .raw Plik tekstowy, którego cała zawartość jest pojedynczą wartością ciągu.
SCsv .scsv Plik tekstowy z wartościami rozdzielanymi średnikami (;).
SOHsv .sohsv Plik tekstowy z wartościami rozdzielanymi SOH. (SOH to punkt kodu ASCII 1; ten format jest używany przez program Hive w usłudze HDInsight).
TSV .tsv Plik tekstowy z wartościami rozdzielanymi tabulatorami (\t).
TSVE .tsv Plik tekstowy z wartościami rozdzielanymi tabulatorami (\t). Znak ukośnika odwrotnego (\) jest używany do ucieczki.
TXT .txt Plik tekstowy z wierszami rozdzielanymi przez \n. Puste wiersze są pomijane.
W3CLOGFILE .log Plik dziennika sieci Web ustandaryzowany przez W3C.

Uwaga

  • Pozyskiwanie z systemów magazynowania danych, które zapewniają funkcjonalność ACID na podstawie zwykłych plików formatu Parquet (np. Apache Iceberg, Apache Hudi, Delta Lake) nie jest obsługiwane.

  • Usługa Avro bez schematu nie jest obsługiwana.

  • Aby uzyskać więcej informacji na temat pozyskiwania danych przy użyciu json lub multijson formatów, zapoznaj się z tym dokumentem.

Obsługiwane formaty kompresji danych

Obiekty blob i pliki można kompresować za pomocą dowolnego z następujących algorytmów kompresji:

Kompresja Rozszerzenie
Gzip .Gz
Zip zip

Wskaż kompresję, dołączając rozszerzenie do nazwy obiektu blob lub pliku.

Na przykład:

  • MyData.csv.zip wskazuje obiekt blob lub plik sformatowany jako CSV, skompresowany za pomocą pliku ZIP (archiwum lub pojedynczego pliku)
  • MyData.json.gz wskazuje obiekt blob lub plik sformatowany jako JSON, skompresowany za pomocą GZip.

Obsługiwane są również nazwy obiektów blob lub plików, które nie zawierają rozszerzeń formatu, ale tylko kompresja (na przykład MyData.zip). W takim przypadku format pliku musi być określony jako właściwość pozyskiwania, ponieważ nie można go wywnioskować.

Uwaga

  • Niektóre formaty kompresji śledzą oryginalne rozszerzenie pliku w ramach skompresowanego strumienia. To rozszerzenie jest zwykle ignorowane do określania formatu pliku. Jeśli nie można określić formatu pliku z (skompresowanego) obiektu blob lub nazwy pliku, należy go określić za pomocą właściwości pozyskiwania format .
  • Nie należy mylić z wewnętrznym (poziom fragmentów) koder-dekoder kompresji używany przez Parquetformaty AVRO i .ORC Nazwa kompresji wewnętrznej jest zwykle dodawana do nazwy pliku przed rozszerzeniem formatu pliku, na przykład: file1.gz.parquet, file1.snappy.avro, itp.
  • Deflate64/Ulepszona deflate Metoda kompresji zip nie jest obsługiwana. Należy pamiętać, że wbudowany kompresor Zip systemu Windows może zdecydować się na użycie tej metody kompresji na plikach o rozmiarze ponad 2 GB.