Udostępnij za pośrednictwem


Omówienie pozyskiwania danych w usłudze Azure Synapse Data Explorer (wersja zapoznawcza)

Ważne

Eksplorator danych usługi Azure Synapse Analytics (wersja zapoznawcza) zostanie wycofany 7 października 2025 r. Po tej dacie obciążenia uruchomione w usłudze Synapse Data Explorer zostaną usunięte, a skojarzone dane aplikacji zostaną utracone. Zdecydowanie zalecamy migrację do usługi Eventhouse w usłudze Microsoft Fabric.

Program Microsoft Cloud Migration Factory (CMF) ma na celu pomoc klientom w migracji do sieci szkieletowej. Program oferuje praktyczne zasoby klawiaturowe bez ponoszenia kosztów dla klienta. Te zasoby są przypisywane przez okres 6–8 tygodni ze wstępnie zdefiniowanym i uzgodnionym zakresem. Nominacje klientów są akceptowane przez zespół ds. kont Microsoft lub bezpośrednio, przesyłając wniosek o pomoc zespołowi CMF.

Pozyskiwanie danych to proces używany do ładowania rekordów danych z co najmniej jednego źródła w celu zaimportowania danych do tabeli w puli usługi Azure Synapse Data Explorer. Po pozyskaniu dane staną się dostępne dla zapytań.

Usługa zarządzania danymi usługi Azure Synapse Data Explorer, która jest odpowiedzialna za pozyskiwanie danych, implementuje następujący proces:

  • Pozyskuje dane partiami lub przesyła strumieniowo z zewnętrznego źródła i odczytuje żądania z kolejki oczekującej w usłudze Azure.
  • Dane wsadowe kierowane do tej samej bazy danych i tabeli są zoptymalizowane pod kątem wydajności pobierania danych.
  • Początkowe dane są weryfikowane i format jest konwertowany w razie potrzeby.
  • Dalsze manipulowanie danymi, w tym dopasowywanie schematu, organizowanie, indeksowanie, kodowanie i kompresowanie danych.
  • Dane są utrwalane w magazynie zgodnie z ustawionymi zasadami przechowywania.
  • Pozyskane dane są wprowadzane do silnika, gdzie są dostępne do zapytań.

Obsługiwane formaty danych, właściwości i uprawnienia

Przetwarzanie wsadowe a pozyskiwanie strumieniowe

  • Wsadowe pozyskiwanie danych polega na przetwarzaniu wsadowym i jest zoptymalizowane pod kątem wysokiej wydajności pozyskiwania. Ta metoda jest preferowanym i najbardziej wydajnym typem pozyskiwania. Dane są przetwarzane w partiach zgodnie z właściwościami pobierania. Małe partie danych są scalane i zoptymalizowane pod kątem szybkich wyników zapytań. Zasady grupowania danych można ustawić w bazach danych lub tabelach. Domyślnie maksymalna wartość dzielenia na partie wynosi 5 minut, 1000 elementów lub całkowity rozmiar 1 GB. Limit rozmiaru danych dla komendy wsadowego ładowania wynosi 4 GB.

  • Pozyskiwanie danych przesyłanych strumieniowo jest w toku pozyskiwania danych ze źródła przesyłania strumieniowego. Pozyskiwanie danych przesyłanych strumieniowo umożliwia niemal rzeczywiste opóźnienie dla małych zestawów danych na tabelę. Dane są początkowo pozyskiwane do przechowywania danych w postaci wierszy, a następnie przenoszone do przechowywania danych w postaci kolumn.

Metody pozyskiwania i narzędzia

Usługa Azure Synapse Data Explorer obsługuje kilka metod pozyskiwania, z których każdy ma własne scenariusze docelowe. Te metody obejmują narzędzia pozyskiwania, łączniki i wtyczki do różnych usług, zarządzanych potoków, programowe pozyskiwanie przy użyciu zestawów SDK i bezpośredni dostęp do pozyskiwania.

Pozyskiwanie przy użyciu zarządzanych potoków

W przypadku organizacji, które chcą zarządzać (ograniczanie przepustowości, ponawianie prób, monitory, alerty i nie tylko) wykonywane przez usługę zewnętrzną, użycie łącznika jest prawdopodobnie najbardziej odpowiednim rozwiązaniem. Kolejkowanie danych jest odpowiednie dla dużych ilości danych. Usługa Azure Synapse Data Explorer obsługuje następujące usługi Azure Pipelines:

  • Potoki usługi Synapse: w pełni zarządzana usługa integracji danych dla obciążeń analitycznych w potokach usługi Synapse łączy się z ponad 90 obsługiwanymi źródłami w celu zapewnienia wydajnego i odpornego transferu danych. Potoki Synapse przygotowują, przekształcają i wzbogacają dane, aby uzyskać wglądy, które można monitorować na różne sposoby. Tej usługi można używać jako jednorazowego rozwiązania, w regularnych odstępach czasu lub wywoływanej przez określone zdarzenia.

Programowe pozyskiwanie przy użyciu zestawów SDK

Usługa Azure Synapse Data Explorer udostępnia zestawy SDK, których można używać do pozyskiwania zapytań i danych. Programowe pozyskiwanie jest zoptymalizowane pod kątem zmniejszenia kosztów pozyskiwania (COG), minimalizując transakcje magazynu podczas procesu pozyskiwania i postępując zgodnie z tym procesem.

Przed rozpoczęciem wykonaj następujące kroki, aby uzyskać punkty końcowe puli eksploratora danych na potrzeby konfigurowania pozyskiwania programowego.

  1. W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami>eksploratora danych.

  2. Wybierz pulę Eksploratora danych, której chcesz użyć, aby wyświetlić jego szczegóły.

    Zrzut ekranu przedstawiający ekran pul eksploratora danych przedstawiający listę istniejących pul.

  3. Zanotuj punkty końcowe zapytań i pozyskiwania danych. Użyj punktu końcowego zapytania jako klastra podczas konfigurowania połączeń z pulą eksploratora danych. Podczas konfigurowania zestawów SDK na potrzeby pozyskiwania danych użyj punktu końcowego pozyskiwania danych.

    Zrzut ekranu przedstawiający okienko właściwości pul eksploratora danych z adresami URI zapytań i pozyskiwania danych.

Dostępne zestawy SDK i projekty open source

Narzędzia

  • Pozyskiwanie jednym kliknięciem: umożliwia szybkie pozyskiwanie danych przez tworzenie i dostosowywanie tabel z szerokiego zakresu typów źródłowych. Integracja jednym kliknięciem myszy automatycznie sugeruje tabele i struktury mapowania na podstawie źródła danych w usłudze Azure Synapse Data Explorer. Pozyskiwanie jednym kliknięciem może służyć do jednorazowego pozyskiwania lub do definiowania ciągłego pozyskiwania za pośrednictwem usługi Event Grid w kontenerze, do którego pozyskano dane.

Polecenia sterujące pozyskiwaniem w języku zapytań Kusto

Istnieje wiele metod, za pomocą których dane można wczytywać bezpośrednio do silnika za pomocą poleceń języka KQL (Kusto Query Language). Ponieważ ta metoda pomija usługi zarządzania danymi, jest ona odpowiednia tylko do eksploracji i tworzenia prototypów. Nie używaj tej metody w scenariuszach produkcyjnych ani przy dużym natężeniu.

  • Pozyskiwanie wbudowane: do aparatu jest wysyłane polecenie sterujące pozyskiwanie wbudowane , a dane, które mają zostać pozyskane, są częścią samego tekstu polecenia. Ta metoda jest przeznaczona do improwizowanych celów testowych.

  • Pozyskiwanie z zapytania: polecenie sterujące .set, .append, .set-or-append lub .set-or-replace jest wysyłane do silnika, gdzie dane są określone pośrednio jako wyniki zapytania lub polecenia.

  • Pobieranie z magazynu (pull): polecenie sterujące wczytywanie do programu jest wysyłane do silnika, a dane przechowywane w magazynie zewnętrznym (na przykład usługa Azure Blob Storage) są dostępne dla silnika i polecenie wskazuje lokalizację danych.

Aby zapoznać się z przykładem używania poleceń dotyczących kontrolowania procesu pozyskiwania, zobacz Analizowanie za pomocą Eksploratora danych.

Proces przyjmowania

Po wybraniu najbardziej odpowiedniej metody wprowadzania danych dla Twoich potrzeb, wykonaj następujące czynności:

  1. Ustawianie zasad przechowywania

    Dane pozyskane do tabeli w usłudze Azure Synapse Data Explorer podlegają obowiązującym zasadom przechowywania tabeli. Jeśli nie ustawiono jawnie tabeli, obowiązujące zasady przechowywania pochodzą z zasad przechowywania bazy danych. Przechowywanie na gorąco zależy od rozmiaru klastra i polityki przechowywania. Pozyskiwanie większej ilości danych niż dostępne miejsce spowoduje przeniesienie najwcześniej pozyskanych danych do zimniejszego przechowywania.

    Upewnij się, że zasady przechowywania bazy danych są odpowiednie dla Twoich potrzeb. Jeśli nie, jawnie przesłoń to na poziomie tabeli. Aby uzyskać więcej informacji, zobacz zasady przechowywania.

  2. Utwórz tabelę

    Aby pozyskiwać dane, należy wcześniej utworzyć tabelę. Użyj jednej z następujących opcji:

    Uwaga

    Jeśli rekord jest niekompletny lub nie można przeanalizować pola jako wymaganego typu danych, odpowiednie kolumny tabeli zostaną wypełnione wartościami null.

  3. Utwórz mapowanie schematu

    Mapowanie schematu pomaga powiązać pola danych źródłowych z kolumnami tabeli docelowej. Mapowanie umożliwia przejmowanie danych z różnych źródeł do tej samej tabeli na podstawie zdefiniowanych atrybutów. Obsługiwane są różne typy mapowań, zarówno zorientowane na wiersze (CSV, JSON i AVRO), jak i zorientowane na kolumny (Parquet). W większości metod mapowania można również wstępnie utworzyć w tabeli i odwoływać się do parametru polecenia pozyskiwania.

  4. Ustawianie zasad aktualizacji (opcjonalnie)

    Niektóre mapowania formatów danych (Parquet, JSON i Avro) obsługują proste i przydatne przekształcenia w czasie ładowania danych. Jeśli scenariusz wymaga bardziej złożonego przetwarzania w czasie pozyskiwania, użyj polityki aktualizacji, która umożliwia lekkie przetwarzanie przy użyciu poleceń języka zapytań Kusto. Polityka aktualizacji automatycznie uruchamia wyodrębnianie i przekształcanie przetworzonych danych na oryginalnej tabeli i wprowadza wynikowe dane do jednej lub więcej tabel docelowych. Ustaw zasady aktualizacji.

Następne kroki