Terminologia usługi Azure Synapse Analytics

W tym artykule przedstawiono podstawowe pojęcia dotyczące usługi Azure Synapse Analytics.

Obszar roboczy usługi Synapse

Obszar roboczy usługi Synapse to zabezpieczana granica współpracy na potrzeby wykonywania analizy przedsiębiorstwa opartej na chmurze na platformie Azure. Obszar roboczy jest wdrażany w określonym regionie i ma skojarzone konto usługi Azure Data Lake Storage Gen2 i system plików do przechowywania danych tymczasowych. Obszar roboczy znajduje się w grupie zasobów.

Obszar roboczy umożliwia wykonywanie analiz za pomocą języka SQL i platformy Apache Spark. Zasoby dostępne do analiz SQL i Spark są zorganizowane w pule SQL i Spark.

Połączone usługi

Obszar roboczy może zawierać dowolną liczbę połączonych usług, zasadniczo parametry połączenia definiujące informacje potrzebne do nawiązania połączenia z zasobami zewnętrznymi w obszarze roboczym.

Synapse SQL

Usługa Synapse SQL umożliwia wykonywanie analizy opartej na języku Transact-SQL (T-SQL) w obszarze roboczym usługi Synapse. Usługa Synapse SQL ma dwa modele użycia: dedykowane i bezserwerowe. W przypadku dedykowanego modelu użyj dedykowanych pul SQL. Obszar roboczy może mieć dowolną liczbę tych pul. Aby użyć modelu bezserwerowego, użyj bezserwerowych pul SQL. Każda przestrzeń robocza ma jedną z tych pul.

W programie Synapse Studio możesz pracować z pulami SQL, uruchamiając skrypty SQL.

Uwaga

Dedykowana pula SQL w usłudze Azure Synapse różni się od dedykowanej puli SQL (dawniej SQL DW). Nie wszystkie funkcje dedykowanej puli SQL w obszarach roboczych usługi Azure Synapse mają zastosowanie do dedykowanej puli SQL (dawniej SQL DW) i na odwrót. Aby włączyć funkcje obszaru roboczego dla istniejącej dedykowanej puli SQL (dawniej SQL DW), zobacz Włączanie funkcji obszaru roboczego dla dedykowanej puli SQL (dawniej SQL DW).

Platforma Apache Spark dla usługi Synapse

Aby korzystać z analizy platformy Spark, utwórz i użyj bezserwerowych pul platformy Apache Spark w obszarze roboczym usługi Synapse. Po rozpoczęciu korzystania z puli Spark, obszary robocze tworzą sesję Spark do obsługi zasobów skojarzonych z tą sesją.

Istnieją dwa sposoby korzystania z platformy Spark w usłudze Synapse:

Notatniki Spark dla nauki o danych i inżynierii przy użyciu języka Scala, PySpark, C# i SparkSQL
Definicje zadań Spark do uruchamiania wsadowych zadań Spark przy użyciu plików jar

SynapseML

SynapseML (wcześniej znany jako MMLSpark) to biblioteka typu open source, która upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego (ML). Jest to ekosystem narzędzi używanych do rozszerzania platformy Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden, skalowalny interfejs API, który można używać w językach Python, R, Scala, .NET i Java. Aby dowiedzieć się więcej, zobacz Co to jest usługa SynapseML?

Pipelines

Pipelines umożliwiają usłudze Azure Synapse integrację danych, umożliwiając przenoszenie danych między usługami i zarządzanie zadaniami.

Potoki to logiczne grupowanie działań, które wykonują zadanie razem.
Działania definiują akcje w potoku, które mają być wykonywane na danych, takich jak kopiowanie danych lub uruchamianie notesu albo skryptu SQL.
Przepływy danych są określoną formą działania, która zapewnia środowisko bez kodu do wykonywania transformacji danych, która korzysta z usługi Synapse Spark w ramach okładek.
Wyzwalacz wykonuje pipeline. Można go uruchamiać ręcznie lub automatycznie (harmonogram, przesuwne okno czasowe lub zależne od zdarzeń).
Zestaw danych integracji to nazwany widok danych, który po prostu wskazuje lub odwołuje się do danych, które mają być używane w działaniu jako dane wejściowe i wyjściowe. Należy do połączonej usługi.

Eksplorator danych (wersja zapoznawcza)

Usługa Azure Synapse Data Explorer udostępnia klientom interaktywne środowisko zapytań w celu odblokowania szczegółowych informacji z danych dzienników i danych telemetrycznych.

Zasoby Eksploratora Danych to dedykowane klastry, które zawierają co najmniej dwa węzły obliczeniowe z lokalnym magazynem SSD (gorąca pamięć podręczna) dla zoptymalizowanej wydajności zapytań, oraz wiele obiektów blob magazynu (zimna pamięć podręczna) zapewniających trwałość.
Bazy danych Eksploratora danych są hostowane w pulach Eksploratora danych i są jednostkami logicznymi składającymi się z kolekcji tabel i innych obiektów bazy danych. Możesz mieć więcej niż jedną bazę danych na pulę.
Tabele to obiekty bazy danych, które zawierają dane zorganizowane przy użyciu tradycyjnego modelu danych relacyjnych. Dane są przechowywane w rekordach, które są zgodne z dobrze zdefiniowanym schematem tabeli eksploratora danych, który definiuje uporządkowaną listę kolumn, a każda kolumna ma nazwę i typ danych skalarnych. Typy danych skalarnych mogą być ustrukturyzowane (int, real, datetime lub timespan), częściowo ustrukturyzowane (dynamiczne) lub dowolny tekst (ciąg). Typ dynamiczny jest podobny do formatu JSON, ponieważ może przechowywać pojedynczą wartość skalarną, tablicę lub słownik takich wartości.
Tabele zewnętrzne to tabele odwołujące się do magazynu lub źródła danych SQL spoza bazy danych eksploratora danych. Podobnie jak w przypadku tabel, tabela zewnętrzna ma dobrze zdefiniowany schemat (uporządkowaną listę par nazw kolumn i typów danych). W przeciwieństwie do tabel eksploratora danych, w których dane są pozyskiwane do pul eksploratora danych, tabele zewnętrzne działają na danych przechowywanych i zarządzanych poza pulami. Tabele zewnętrzne nie utrwalają żadnych danych i są używane do wykonywania zapytań ani eksportowania danych do zewnętrznego magazynu danych.

Opinia

Czy ta strona była pomocna?

Last updated on 2025-04-03