Pobieranie danych z usługi Azure Storage

Pozyskiwanie danych to proces używany do ładowania danych z co najmniej jednego źródła do tabeli w usłudze Azure Data Explorer. Po pozyskaniu dane staną się dostępne dla zapytań. Z tego artykułu dowiesz się, jak pobierać dane z usługi Azure Storage (kontener usługi ADLS Gen2, kontener obiektów blob lub pojedynczych obiektów blob) do nowej lub istniejącej tabeli.

Pozyskiwanie można wykonać jako jednorazową operację lub jako metodę ciągłą. Ciągłe pozyskiwanie można skonfigurować tylko za pośrednictwem portalu.

Aby uzyskać ogólne informacje na temat pozyskiwania danych, zobacz Omówienie pozyskiwania danych w usłudze Azure Data Explorer.

Wymagania wstępne

Pobieranie danych

  1. W menu po lewej stronie wybierz pozycję Zapytanie.

  2. Kliknij prawym przyciskiem myszy bazę danych, w której chcesz pozyskać dane. Wybierz pozycję Pobierz dane.

    Zrzut ekranu przedstawiający kartę zapytania z kliknięciem prawym przyciskiem myszy bazy danych i otwartym oknem dialogowym pobierania opcji.

Source

W oknie Pobieranie danych wybrana jest karta Źródło .

Wybierz źródło danych z listy dostępnych. W tym przykładzie pozyskiwane są dane z usługi Azure Storage.

Zrzut ekranu przedstawiający okno pobierania danych z wybraną kartą źródłową.

Konfigurowanie

  1. Wybierz docelową bazę danych i tabelę. Jeśli chcesz pozyskać dane do nowej tabeli, wybierz pozycję + Nowa tabela i wprowadź nazwę tabeli.

    Uwaga

    Nazwy tabel mogą zawierać maksymalnie 1024 znaki, w tym spacje, alfanumeryczne, łączniki i podkreślenia. Znaki specjalne nie są obsługiwane.

  2. Aby dodać źródło, wybierz pozycję Wybierz kontener lub Dodaj identyfikator URI.

    1. W przypadku wybrania pozycji Wybierz kontener wypełnij następujące pola:

      Zrzut ekranu przedstawiający kartę konfigurowanie z wprowadzoną nową tabelą i wybranym jednym przykładowym plikiem danych.

      Ustawienie Opis pola
      Subskrypcja Identyfikator subskrypcji, w której znajduje się konto magazynu.
      Konto magazynu Nazwa identyfikująca konto magazynu.
      Kontener Kontener magazynu, który chcesz pozyskać.
      Filtry plików (opcjonalnie)
      Ścieżka folderu Filtruje dane w celu pozyskiwania plików przy użyciu określonej ścieżki folderu.
      Rozszerzenie pliku Filtruje dane w celu pozyskiwania plików tylko przy użyciu określonego rozszerzenia pliku.
    2. Jeśli wybrano pozycję Dodaj identyfikator URI, wklej parametry połączenia magazynu dla kontenera obiektów blob lub pojedynczych plików w polu identyfikatora URI, a następnie wybierz pozycję +.

      Uwaga

      • Można dodać maksymalnie 10 pojedynczych obiektów blob. Każdy obiekt blob może być maksymalnie 1 GB nieskompresowany.
      • Można pozyskiwać maksymalnie 5000 obiektów blob z jednego kontenera.

      Zrzut ekranu przedstawiający kartę konfigurowanie z parametry połączenia wklejonym w polu identyfikatora URI.

  3. Wybierz pozycję Dalej

Kontrola

Zostanie otwarta karta Inspekcja z podglądem danych.

Aby ukończyć proces pozyskiwania, wybierz pozycję Zakończ.

Zrzut ekranu przedstawiający kartę inspekcji.

Opcjonalnie:

Edytuj kolumny

Uwaga

  • W przypadku formatów tabelarycznych (CSV, TSV, PSV) nie można mapować kolumny dwa razy. Aby zamapować na istniejącą kolumnę, najpierw usuń nową kolumnę.
  • Nie można zmienić istniejącego typu kolumny. Jeśli spróbujesz zamapować kolumnę na inny format, może się okazać, że kolumny będą puste.

Zmiany, które można wprowadzić w tabeli, zależą od następujących parametrów:

  • Typ tabeli jest nowy lub istniejący
  • Typ mapowania jest nowy lub istniejący
Typ tabeli Typ mapowania Dostępne korekty
Nowa tabela Nowe mapowanie Zmienianie nazwy kolumny, zmienianie typu danych, zmienianie źródła danych, przekształcanie mapowania, dodawanie kolumny, usuwanie kolumny
Istniejąca tabela Nowe mapowanie Dodaj kolumnę (na której można następnie zmienić typ danych, zmienić nazwę i zaktualizować)
Istniejąca tabela Istniejące mapowanie brak

Zrzut ekranu przedstawiający otwarte kolumny do edycji.

Przekształcenia mapowania

Niektóre mapowania formatów danych (Parquet, JSON i Avro) obsługują proste przekształcenia czasu pozyskiwania. Aby zastosować przekształcenia mapowania, utwórz lub zaktualizuj kolumnę w oknie Edytowanie kolumn .

Przekształcenia mapowania można wykonywać na kolumnie typu ciąg lub data/godzina, a źródło ma typ danych int lub long. Obsługiwane przekształcenia mapowania to:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

Opcje zaawansowane oparte na typie danych

Tabelaryczny (CSV, TSV, PSV):

  • Jeśli pozyskujesz formaty tabelaryczne w istniejącej tabeli, możesz wybrać pozycję Zaawansowane>Zachowaj bieżący schemat tabeli. Dane tabelaryczne nie muszą zawierać nazw kolumn używanych do mapowania danych źródłowych na istniejące kolumny. Po zaznaczeniu tej opcji mapowanie jest wykonywane według kolejności, a schemat tabeli pozostaje taki sam. Jeśli ta opcja nie jest zaznaczona, nowe kolumny są tworzone dla danych przychodzących, niezależnie od struktury danych.

  • Aby użyć pierwszego wiersza jako nazw kolumn, wybierz pozycję Zaawansowane>pierwszy wiersz to nagłówek kolumny.

    Zrzut ekranu przedstawiający zaawansowane opcje csv.

JSON:

  • Aby określić podział kolumn danych JSON, wybierz pozycję Zaawansowane>poziomy zagnieżdżone z zakresu od 1 do 100.

  • W przypadku wybrania opcji Zaawansowane>ignoruj błędy formatu danych dane są pozyskiwane w formacie JSON. Jeśli to pole wyboru zostanie niezaznaczone, dane są pozyskiwane w formacie wielossonowym.

    Zrzut ekranu przedstawiający zaawansowane opcje JSON.

Podsumowanie

W oknie Przygotowywanie danych wszystkie trzy kroki są oznaczone zielonymi znacznikami wyboru po pomyślnym zakończeniu pozyskiwania danych. Możesz wyświetlić polecenia, które były używane dla każdego kroku, lub wybrać kartę do wykonywania zapytań, wizualizacji lub upuszczania pozyskanych danych.

Zrzut ekranu przedstawiający stronę podsumowania z ukończonym pomyślnym pozyskiwaniem.