Vanliga frågor och svar om Azure Synapse Analytics

I den här guiden hittar du de vanligaste frågorna för Azure Synapse Analytics.

Allmänt

Hur kan jag använda RBAC-roller för att skydda min arbetsyta?

Azure Synapse introducerar ett antal roller och omfång för att tilldela dem på som förenklar skyddet av din arbetsyta.

Synapse RBAC-roller:

  • Synapse-administratör
  • Synapse SQL-administratör
  • Synapse Spark-administratör
  • Synapse-deltagare
  • Synapse Artifact Publisher
  • Synapse Artifact User
  • Synapse Compute Operator
  • Synapse Credential-användare
  • Synapse Linked Data Manager
  • Synapse-användare

Om du vill skydda Din Synapse-arbetsyta tilldelar du RBAC-rollerna till dessa RBAC-omfång:

  • Arbetsytor
  • Spark-pooler
  • Integreringskörningar
  • Länkade tjänster
  • Autentiseringsuppgifter

Med dedikerade SQL-pooler har du dessutom samma säkerhetsfunktioner som du känner till och älskar.

Hur gör jag för att styra dedikerade SQL-pooler, serverlösa SQL-pooler och serverlösa Spark-pooler?

Som utgångspunkt fungerar Azure Synapse med de inbyggda kostnadsanalyser och kostnadsaviseringar som är tillgängliga på Azure-prenumerationsnivå.

  • Dedikerade SQL-pooler – du har direkt insyn i kostnaden och kontrollen över kostnaden, eftersom du skapar och anger storleken på dedikerade SQL-pooler. Du kan styra vilka användare som kan skapa eller skala dedikerade SQL-pooler med Azure RBAC-roller.

  • Serverlösa SQL-pooler – du har kontroller för övervakning och kostnadshantering som gör att du kan begränsa utgifterna på en daglig, vecko- och månadsnivå. Mer information finns i Kostnadshantering för serverlös SQL-pool .

  • Serverlösa Spark-pooler – du kan begränsa vem som kan skapa Spark-pooler med Synapse RBAC-roller.

Kommer Synapse-arbetsytan att stödja mapporganisation av objekt och kornighet på GA?

Synapse-arbetsytor stöder användardefinierade mappar.

Kan jag länka mer än en Power BI-arbetsyta till en enda Azure Synapse-arbetsyta?

Ja, från och med den 10 juni 2021 låter Synapse Studio dig nu lägga till mer än en Power BI-arbetsyta till en enda Azure Synapse-arbetsyta.

Azure Synapse Analytics stöder för närvarande Azure Synapse Link från Azure Cosmos DB till Synapse Apache Spark och serverlös SQL-pool. Azure Synapse Link för Apache Spark är GA. Synapse Link för serverlös SQL-pool är i förhandsversion. Mer information finns i Azure Synapse Link för Azure Cosmos DB.

Azure Synapse Link för SQL är allmänt tillgängligt för både SQL Server 2022 och Azure SQL Database. Mer information finns i Vad är Azure Synapse Link för SQL?.

Stöder Azure Synapse-arbetsytan CI/CD?

Japp! Alla pipelineartefakter, notebook-filer, SQL-skript och Spark-jobbdefinitioner finns i Git. Alla pooldefinitioner lagras i Git som ARM-mallar (Azure Resource Manager). Dedikerade SQL-poolobjekt (scheman, tabeller, vyer osv.) hanteras med databasprojekt med CI/CD-stöd. Mer information finns i den här CI- och CD-guiden.

Vilka är de funktionella skillnaderna mellan dedikerade SQL-pooler och serverlösa pooler?

Funktioner och krav skiljer sig mellan de två typerna av pooler. Skillnaderna omfattar databasobjekt, frågespråksfunktioner, säkerhet, verktyg, dataåtkomst och dataformat. Detaljerad jämförelse av SQL-pooler och serverlösa pooler finns i Jämförelse av pooler. Metodtips när du använder någon av typerna av pooler finns i Metodtips för dedikerad SQL-pool och Metodtips för serverlös SQL-pool.

Vad är Delta-tabeller och varför ska jag använda dem?

Lakehouse baseras på öppna dataformat för direktåtkomst, till exempel Apache Parquet. Den har förstklassigt stöd för maskininlärning och datavetenskap. En Delta-tabell är en vy över data som finns i en Delta Lake, som stöder de flesta alternativ som tillhandahålls av Apache Spark DataFrame-läs- och skriv-API:er. Lakehouses kan hjälpa till med stora utmaningar med informationslager, till exempel inaktuella data, tillförlitlighet, total ägandekostnad och inlåsning av data. I Delta-tabeller är optimeringar som automatisk komprimering och anpassningsbara frågeplaner tillgängliga. För en detaljerad guide till Delta Lake, besök Delta Lake Guide.

Vad är automatisk komprimering?

Automatisk komprimering är en av två kompletterande funktioner i autooptimera för Delta-tabeller. När en skrivning till en tabell har slutförts kan automatisk komprimering ytterligare komprimera filer för partitioner som har flest antal små filer. Att välja automatisk komprimering rekommenderas för användning av direktuppspelning där det är acceptabelt att lägga till minuter av svarstid och när du inte har regelbundna OPTIMIZE-anrop i tabellen. Mer information om automatisk optimering och automatisk komprimering finns i den här guiden för automatisk optimering.

Pipelines

Hur gör jag för att se till att jag vet vilka autentiseringsuppgifter som används för att köra en pipeline?

Varje aktivitet i en Synapse Pipeline körs med hjälp av de autentiseringsuppgifter som anges i den länkade tjänsten.

Stöds SSIS IR i Synapse Integrate?

Nej, inte just nu.

Hur skiljer sig Azure Data Factory-pipelines och Azure Synapse-pipelines åt?

Några exempel på skillnader är stöd för globala parametrar, övervakning av Spark-jobb för Dataflöde och Integration Runtime-delning. Mer information finns i det här dokumentet för Dataintegration – Synapse vs ADF.

Hur gör jag för att migrera befintliga pipelines från Azure Data Factory till en Azure Synapse-arbetsyta?

För närvarande måste du återskapa dina Azure Data Factory-pipelines och relaterade artefakter manuellt genom att exportera JSON från den ursprungliga pipelinen och importera den till din Synapse-arbetsyta.

Hur gör jag för att använda en Apache Spark-jobbdefinition?

Kolla in den här snabbstartsguiden.

Kan jag anropa notebook-filer från ADF-pipelines?

Det finns två alternativ för det här användningsfallet. Ett alternativ är att behålla pipelines i ADF, och du måste omsluta en webbaktivitet. Mer information om det här alternativet finns i den här webbaktivitetsguiden. Det andra alternativet är att migrera pipelines till Synapse. Mer information om det andra alternativet finns i det här migreringskodexemplet.

Apache Spark

Vad är skillnaden mellan Apache Spark för Synapse och Apache Spark?

Apache Spark för Synapse är Apache Spark med stöd för integreringar med andra tjänster (Microsoft Entra-ID, AzureML osv.) och ytterligare bibliotek (mssparktuils, Hummingbird) och förjusterade prestandakonfigurationer.

Alla arbetsbelastningar som körs på Apache Spark körs på Apache Spark för Azure Synapse utan ändring.

Vilka versioner av Spark är tillgängliga?

Från och med september 2023 har Azure Synapse Apache Spark fullt stöd för Spark 3.3. En fullständig lista över kärnkomponenter och versioner som stöds finns i Apache Spark-versionsstöd.

Finns det en motsvarighet till DButils i Azure Synapse Spark?

Ja, Azure Synapse Apache Spark tillhandahåller mssparkutils-biblioteket . Fullständig dokumentation om verktyget finns i Introduktion till Microsoft Spark-verktyg.

Hur gör jag för att ange sessionsparametrar i Apache Spark?

Om du vill ange sessionsparametrar använder du %%configure magic available. En omstart av sessionen krävs för att parametrarna ska börja gälla.

Hur gör jag för att ange parametrar på klusternivå i en serverlös Spark-pool?

Om du vill ange parametrar på klusternivå kan du ange en spark.conf-fil för Spark-poolen. Den här poolen kommer sedan att respektera parametrarna som är tidigare i konfigurationsfilen.

Kan jag köra ett Spark-kluster med flera användare i Azure Synapse Analytics?

Azure Synapse tillhandahåller specialbyggda motorer för specifika användningsfall. Apache Spark för Synapse är utformat som en jobbtjänst och inte som en klustermodell. Det finns två scenarier där personer ber om en klustermodell för flera användare.

Scenario nr 1: Många användare som har åtkomst till ett kluster för att hantera data i BI-syfte.

Det enklaste sättet att utföra den här uppgiften är att laga data med Spark och sedan dra nytta av funktionerna i Synapse SQL så att de kan ansluta Power BI till dessa datamängder.

Scenario nr 2: Att ha flera utvecklare i ett enda kluster för att spara pengar.

För att uppfylla det här scenariot bör du ge varje utvecklare en serverlös Spark-pool som är inställd på att använda ett litet antal Spark-resurser. Eftersom serverlösa Spark-pooler inte kostar något, tills de används aktivt, minimerar kostnaden när det finns flera utvecklare. Poolerna delar metadata (Spark-tabeller) så att de enkelt kan arbeta med varandra.

Hur gör jag för att inkludera, hantera och installera bibliotek?

Du kan installera externa paket via en requirements.txt-fil när du skapar Spark-poolen, från synapse-arbetsytan eller från Azure-portalen. Se Hantera bibliotek för Apache Spark i Azure Synapse Analytics.

Vilka verktyg är tillgängliga för mig i Synapse Spark?

MSSparkUtils på Synapse Spark erbjuder en mängd olika verktyg för att förbättra din upplevelse och göra integrering med andra verktyg och tjänster enklare. Arbeta med filsystem, hämta miljövariabler, länka ihop notebook-filer och arbeta med hemligheter med minimala manuella steg. Fullständig dokumentation finns i Microsoft Spark Utilities.

Dedikerade SQL-pooler

Vad är skillnaden mellan dedikerade SQL-pooler (SQL DW) och dedikerade SQL-pooler i Azure Synapse-arbetsytor?

Dedikerade SQL-pooler (tidigare SQL DW) är en PaaS-plattform (Plattform som en tjänst) för företagsinformation. Du kan fråga befintliga dedikerade SQL-pooler (tidigare SQL DW) och även skapa nya dedikerade SQL-pooler på din Azure Synapse-arbetsyta. Alla funktioner i den dedikerade SQL-poolen i Azure Synapse-arbetsytor gäller inte för en fristående dedikerad SQL-pool (tidigare SQL DW) och vice versa. Mer information finns i Vad är skillnaden mellan dedikerade SQL-pooler i Azure Synapse (tidigare SQL DW) och dedikerade SQL-pooler i en Azure Synapse Analytics-arbetsyta?. Om du vill aktivera Azure Synapse-arbetsytefunktioner för en befintlig dedikerad SQL-pool (tidigare SQL DW) läser du Så här aktiverar du en arbetsyta för din dedikerade SQL-pool (tidigare SQL DW).

Vilka är de funktionella skillnaderna mellan dedikerade SQL-pooler och serverlösa pooler?

Du hittar en fullständig lista över skillnader i T-SQL-funktionsskillnader i Synapse SQL.

Nu när Azure Synapse är GA, hur flyttar jag mina dedikerade SQL-pooler som tidigare var fristående till Azure Synapse?

Det behövs ingen "flytt" eller "migrering". Du kan välja att aktivera nya arbetsytefunktioner i dina befintliga pooler. Om du gör det finns det inga icke-bakåtkompatibla ändringar, i stället kan du använda nya funktioner som Synapse Studio, Spark och serverlösa SQL-pooler. Alla funktioner i den dedikerade SQL-poolen i Azure Synapse-arbetsytor gäller inte för dedikerad SQL-pool (tidigare SQL DW) och vice versa. Om du vill aktivera arbetsytefunktioner för en befintlig dedikerad SQL-pool (tidigare SQL DW) läser du Så här aktiverar du en arbetsyta för din dedikerade SQL-pool (tidigare SQL DW).

Vad är standarddistributionen av dedikerade SQL-pooler nu?

Som standard distribueras alla nya dedikerade SQL-pooler till en arbetsyta. Men om du behöver kan du fortfarande skapa en dedikerad SQL-pool (tidigare SQL DW) i en fristående formfaktor.

Nätverkssäkerhet

Hur gör jag för att säker åtkomst till min Azure Synapse-arbetsyta?

Med eller utan ett hanterat virtuellt nätverk kan du ansluta till din arbetsyta från offentliga nätverk. Mer information finns i Anslut ivity Inställningar. Åtkomst från offentliga nätverk kan styras genom att aktivera funktionen för åtkomst till det offentliga nätverket eller brandväggen för arbetsytan. Du kan också ansluta till din arbetsyta med hjälp av en hanterad privat slutpunkt och Private Link. Synapse-arbetsytor utan Azure Synapse Analytics Managed Virtual Network har inte möjlighet att ansluta via hanterade privata slutpunkter.