terminologia dotycząca analizy Azure Synapse

Ten dokument przeprowadzi Cię przez podstawowe pojęcia dotyczące usługi Azure Synapse Analytics.

Obszar roboczy usługi Synapse

Obszar roboczy usługi Synapse to zabezpieczana granica współpracy na potrzeby wykonywania analizy przedsiębiorstwa opartej na chmurze na platformie Azure. Obszar roboczy jest wdrażany w określonym regionie i ma skojarzone konto i system plików usługi ADLS Gen2 (do przechowywania danych tymczasowych). Obszar roboczy znajduje się w grupie zasobów.

Obszar roboczy umożliwia wykonywanie analiz za pomocą języka SQL i platformy Apache Spark. Zasoby dostępne dla analiz SQL i Spark są zorganizowane w pule SQL i Spark.

Połączone usługi

Obszar roboczy może zawierać dowolną liczbę połączonych usług, zasadniczo parametry połączenia definiujące informacje o połączeniu potrzebne do nawiązania połączenia z zasobami zewnętrznymi.

Synapse SQL

Usługa Synapse SQL umożliwia wykonywanie analizy opartej na języku T-SQL w obszarze roboczym usługi Synapse. Usługa Synapse SQL ma dwa modele zużycia: dedykowane i bezserwerowe. W przypadku dedykowanego modelu użyj dedykowanych pul SQL. Obszar roboczy może mieć dowolną liczbę tych pul. Aby użyć modelu bezserwerowego, użyj bezserwerowych pul SQL. Każdy obszar roboczy ma jedną z tych pul.

Wewnątrz Synapse Studio możesz pracować z pulami SQL, uruchamiając skrypty SQL.

Uwaga

Dedykowane pule SQL w Azure Synapse różnią się od dedykowanej puli SQL (dawniej SQL DW). Nie wszystkie funkcje dedykowanej puli SQL w obszarach roboczych Azure Synapse mają zastosowanie do dedykowanej puli SQL (dawniej SQL DW) i odwrotnie. Aby włączyć funkcje obszaru roboczego dla istniejącej dedykowanej puli SQL (dawniej SQL DW), zobacz Jak włączyć obszar roboczy dla dedykowanej puli SQL (dawniej SQL DW).

Platforma Apache Spark dla usługi Synapse

Aby korzystać z analizy platformy Spark, utwórz i użyj bezserwerowych pul platformy Apache Spark w obszarze roboczym usługi Synapse. Po rozpoczęciu korzystania z puli Spark obszary robocze tworzą sesję platformy Spark do obsługi zasobów skojarzonych z tą sesją.

Istnieją dwa sposoby korzystania z platformy Spark w usłudze Synapse:

  • Notesy Spark do wykonywania analizy danych i inżynierii używają języka Scala, PySpark, C#i SparkSQL
  • Definicje zadań platformy Spark do uruchamiania zadań platformy Spark wsadowych przy użyciu plików jar.

SynapseML

SynapseML (wcześniej znany jako MMLSpark) to biblioteka typu open source, która upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego (ML). Jest to ekosystem narzędzi używanych do rozszerzania platformy Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden, skalowalny interfejs API, który można wykorzystać w języku Python, R, Scala, .NET i Java. Aby dowiedzieć się więcej, zobacz najważniejsze funkcje usługi SynapseML.

Pipelines

Potoki są sposobem Azure Synapse zapewnia integrację danych — dzięki czemu można przenosić dane między usługami i organizować działania.

  • Potok to logiczne grupowanie działań, które wykonują razem zadanie.
  • Działania definiują akcje w potoku do wykonania na danych, takich jak kopiowanie danych, uruchamianie notesu lub skryptu SQL.
  • Przepływy danych są konkretnym rodzajem działania, które zapewniają środowisko bez kodu do wykonywania transformacji danych, które używają usługi Synapse Spark w ramach okładek.
  • Wyzwalacz — wykonuje potok. Można go uruchamiać ręcznie lub automatycznie (harmonogram, okno wirowania lub oparte na zdarzeniach)
  • Zestaw danych integracji — nazwany widok danych, który po prostu wskazuje lub odwołuje się do danych, które mają być używane w działaniu jako dane wejściowe i wyjściowe. Należy do połączonej usługi.

Data Explorer (wersja zapoznawcza)

Azure Synapse Data Explorer zapewnia klientom interaktywne środowisko zapytań w celu odblokowania szczegółowych informacji z danych dzienników i telemetrii.

  • Data Explorer pule to dedykowane klastry, które zawierają co najmniej dwa węzły obliczeniowe z lokalnym magazynem SSD (gorąca pamięć podręczna) na potrzeby zoptymalizowanej wydajności zapytań i wielu magazynów obiektów blob (chłodna pamięć podręczna) na potrzeby trwałości.
  • Data Explorer bazy danych są hostowane w pulach Data Explorer i są jednostkami logicznymi składającymi się z kolekcji tabel i innych obiektów bazy danych. Możesz mieć więcej niż jedną bazę danych na pulę.
  • Tabele to obiekty bazy danych zawierające dane zorganizowane przy użyciu tradycyjnego modelu danych relacyjnych. Dane są przechowywane w rekordach, które są zgodne z dobrze zdefiniowanym schematem tabeli Data Explorer, który definiuje uporządkowaną listę kolumn, każda kolumna o nazwie i typie danych skalarnych. Typy danych skalarnych mogą być ustrukturyzowane (int, real, datetime lub timespan), częściowo ustrukturyzowane (dynamiczne) lub wolny tekst (ciąg). Typ dynamiczny jest podobny do formatu JSON, ponieważ może przechowywać pojedynczą wartość skalarną, tablicę lub słownik takich wartości.
  • Tabele zewnętrzne to tabele odwołujące się do magazynu lub źródła danych SQL poza bazą danych Data Explorer. Podobnie jak w przypadku tabel, tabela zewnętrzna ma dobrze zdefiniowany schemat (uporządkowaną listę par nazw kolumn i typów danych). W przeciwieństwie do tabel Data Explorer, w których dane są pozyskiwane do pul Data Explorer, tabele zewnętrzne działają na danych przechowywanych i zarządzanych poza pulami. Tabele zewnętrzne nie utrzymują żadnych danych i są używane do wykonywania zapytań o dane lub eksportowania ich do zewnętrznego magazynu danych.

Następne kroki