Azure Synapse Analytics-terminologi

Artikel
03/25/2023

Det här dokumentet vägleder dig genom de grundläggande begreppen i Azure Synapse Analytics.

Synapse-arbetsyta

En Synapse-arbetsyta är en säker samarbetsgräns för molnbaserad företagsanalys i Azure. En arbetsyta distribueras i en viss region och har ett associerat ADLS Gen2-konto och filsystem (för lagring av tillfälliga data). En arbetsyta finns under en resursgrupp.

Med en arbetsyta kan du utföra analyser med SQL och Apache Spark. Resurser som är tillgängliga för SQL- och Spark-analys ordnas i SQL- och Spark-pooler.

Länkade tjänster

En arbetsyta kan innehålla valfritt antal länkade tjänster, i huvudsak anslutningssträngar som definierar den anslutningsinformation som krävs för att arbetsytan ska kunna ansluta till externa resurser.

Synapse SQL

Synapse SQL är möjligheten att utföra T-SQL-baserade analyser på Synapse-arbetsytan. Synapse SQL har två förbrukningsmodeller: dedikerade och serverlösa. Använd dedikerade SQL-pooler för den dedikerade modellen. En arbetsyta kan ha valfritt antal av dessa pooler. Om du vill använda den serverlösa modellen använder du de serverlösa SQL-poolerna. Varje arbetsyta har en av dessa pooler.

I Synapse Studio kan du arbeta med SQL-pooler genom att köra SQL-skript.

Anteckning

Dedikerade SQL-pooler i Azure Synapse skiljer sig från den dedikerade SQL-poolen (tidigare SQL DW). Alla funktioner i den dedikerade SQL-poolen i Azure Synapse arbetsytor gäller inte för dedikerad SQL-pool (tidigare SQL DW) och vice versa. Information om hur du aktiverar arbetsytefunktioner för en befintlig dedikerad SQL-pool (tidigare SQL DW) finns i Så här aktiverar du en arbetsyta för din dedikerade SQL-pool (tidigare SQL DW).

Apache Spark för Synapse

Om du vill använda Spark-analys skapar och använder du serverlösa Apache Spark-pooler på Din Synapse-arbetsyta. När du börjar använda en Spark-pool skapar arbetsytorna en Spark-session för att hantera de resurser som är associerade med den sessionen.

Det finns två sätt i Synapse att använda Spark:

Spark Notebooks för datavetenskap och teknik använder Scala, PySpark, C#och SparkSQL
Spark-jobbdefinitioner för att köra Batch Spark-jobb med jar-filer.

SynapseML

SynapseML (tidigare MMLSpark) är ett bibliotek med öppen källkod som förenklar skapandet av massivt skalbara ML-pipelines (Machine Learning). Det är ett ekosystem med verktyg som används för att utöka Apache Spark-ramverket i flera nya riktningar. SynapseML förenar flera befintliga ramverk för maskininlärning och nya Microsoft-algoritmer till ett enda skalbart API som kan användas i Python, R, Scala, .NET och Java. Mer information finns i de viktigaste funktionerna i SynapseML.

Pipelines

Pipelines är hur Azure Synapse tillhandahåller dataintegrering – så att du kan flytta data mellan tjänster och samordna aktiviteter.

Pipeline är logisk gruppering av aktiviteter som utför en uppgift tillsammans.
Aktiviteter definierar åtgärder i en pipeline för att utföra data som att kopiera data, köra en notebook-fil eller ett SQL-skript.
Dataflöden är en specifik typ av aktivitet som ger en kodfri upplevelse för att utföra datatransformering som använder Synapse Spark under täcket.
Utlösare – Kör en pipeline. Den kan köras manuellt eller automatiskt (schema, rullande fönster eller händelsebaserad)
Integrationsdatauppsättning – Namngiven vy över data som bara pekar eller refererar till de data som ska användas i en aktivitet som indata och utdata. Den tillhör en länkad tjänst.

Data Explorer (förhandsversion)

Azure Synapse Data Explorer ger kunderna en interaktiv frågeupplevelse för att låsa upp insikter från logg- och telemetridata.

Data Explorer pooler är dedikerade kluster som innehåller två eller flera beräkningsnoder med lokal SSD-lagring (frekvent cache) för optimerad frågeprestanda och flera bloblagring (kall cache) för beständighet.
Data Explorer databaser finns i Data Explorer pooler och är logiska entiteter som består av samlingar med tabeller och andra databasobjekt. Du kan ha mer än en databas per pool.
Tabeller är databasobjekt som innehåller data som organiseras med hjälp av en traditionell relationsdatamodell. Data lagras i poster som följer Data Explorer väldefinierade tabellschema som definierar en ordnad lista med kolumner, där varje kolumn har ett namn och en skalär datatyp. Skalära datatyper kan vara strukturerade (int, real, datetime eller timespan), halvstrukturerade (dynamiska) eller fritext (sträng). Den dynamiska typen liknar JSON eftersom den kan innehålla ett enda skalärt värde, en matris eller en ordlista med sådana värden.
Externa tabeller är tabeller som refererar till en lagrings- eller SQL-datakälla utanför Data Explorer-databasen. Precis som tabeller har en extern tabell ett väldefinierat schema (en ordnad lista med kolumnnamn och datatypspar). Till skillnad från Data Explorer tabeller där data matas in i Data Explorer pooler, fungerar externa tabeller på data som lagras och hanteras utanför pooler. Externa tabeller bevarar inga data och används för att fråga eller exportera data till ett externt datalager.