Azure Synapse Analytics — często zadawane pytania

W tym przewodniku znajdziesz najczęściej zadawane pytania dotyczące usługi Azure Synapse Analytics.

Ogólne

Jak zabezpieczyć obszar roboczy przy użyciu ról RBAC?

Usługa Azure Synapse wprowadza szereg ról i zakresów do ich przypisania, co uprości zabezpieczanie obszaru roboczego.

Role RBAC usługi Synapse:

  • Usługa Synapse Administracja istrator
  • Usługa Synapse SQL Administracja istrator
  • Usługa Synapse Spark Administracja istrator
  • Współautor usługi Synapse
  • Wydawca artefaktów usługi Synapse
  • Użytkownik artefaktu usługi Synapse
  • Synapse Compute Operator
  • Użytkownik poświadczeń usługi Synapse
  • Menedżer połączonych danych usługi Synapse
  • Użytkownik usługi Synapse

Aby zabezpieczyć obszar roboczy usługi Synapse, przypisz role RBAC do następujących zakresów RBAC:

  • Obszary robocze
  • Pule zadań platformy Spark
  • Środowiska Integration Runtime
  • Połączone usługi
  • Poświadczenia

Ponadto w przypadku dedykowanych pul SQL masz wszystkie te same funkcje zabezpieczeń, które znasz i kochasz.

Jak mogę kontrolować dedykowane pule SQL, bezserwerowe pule SQL i bezserwerowe pule platformy Spark?

Jako punkt wyjścia usługa Azure Synapse współpracuje z wbudowaną analizą kosztów i alertami kosztów dostępnymi na poziomie subskrypcji platformy Azure.

  • Dedykowane pule SQL — masz bezpośredni wgląd w koszt i kontrolę nad kosztami, ponieważ tworzysz i określasz rozmiary dedykowanych pul SQL. Możesz dodatkowo kontrolować, którzy użytkownicy mogą tworzyć lub skalować dedykowane pule SQL przy użyciu ról RBAC platformy Azure.

  • Bezserwerowe pule SQL — masz mechanizmy monitorowania i zarządzania kosztami, które umożliwiają ograniczenie wydatków na poziomie dziennym, tygodniowym i miesięcznym. Aby uzyskać więcej informacji, zobacz Zarządzanie kosztami dla bezserwerowej puli SQL.

  • Bezserwerowe pule platformy Spark — możesz ograniczyć możliwość tworzenia pul platformy Spark za pomocą ról RBAC usługi Synapse.

Czy obszar roboczy usługi Synapse będzie obsługiwać organizację obiektów i stopień szczegółowości w ogólnie dostępnej dostępności?

Obszary robocze usługi Synapse obsługują foldery zdefiniowane przez użytkownika.

Czy mogę połączyć więcej niż jeden obszar roboczy usługi Power BI z jednym obszarem roboczym usługi Azure Synapse?

Tak, od 10 czerwca 2021 r. program Synapse Studio umożliwia teraz dodawanie więcej niż jednego obszaru roboczego usługi Power BI do jednego obszaru roboczego usługi Azure Synapse.

Usługa Azure Synapse Analytics obecnie obsługuje usługę Azure Synapse Link z usługi Azure Cosmos DB do usługi Synapse Apache Spark i bezserwerową pulę SQL. Usługa Azure Synapse Link dla platformy Apache Spark jest ogólnie dostępna. Usługa Synapse Link dla bezserwerowej puli SQL jest dostępna w wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz Azure Synapse Link dla usługi Azure Cosmos DB.

Usługa Azure Synapse Link dla usługi SQL jest ogólnie dostępna zarówno dla programu SQL Server 2022, jak i usługi Azure SQL Database. Aby uzyskać więcej informacji, zobacz Co to jest usługa Azure Synapse Link dla języka SQL?.

Czy obszar roboczy usługi Azure Synapse obsługuje ciągłą integrację/ciągłe wdrażanie?

Tak! Wszystkie artefakty potoku, notesy, skrypty SQL i definicje zadań platformy Spark będą znajdować się w usłudze Git. Wszystkie definicje puli będą przechowywane w usłudze Git jako szablony usługi Azure Resource Manager (ARM). Dedykowane obiekty puli SQL (schematy, tabele, widoki itp.) będą zarządzane przy użyciu projektów baz danych z obsługą ciągłej integracji/ciągłego wdrażania. Aby uzyskać więcej informacji, zapoznaj się z tym przewodnikiem ciągłej integracji i ciągłego wdrażania.

Jakie są różnice funkcjonalne między dedykowanymi pulami SQL i pulami bezserwerowymi?

Możliwości i wymagania różnią się między dwoma typami pul. Różnice obejmują obiekty bazy danych, możliwości języka zapytań, zabezpieczenia, narzędzia, dostęp do danych i format danych. Aby uzyskać szczegółowe porównanie pul SQL i pul bezserwerowych, odwiedź stronę Porównanie pul. Aby uzyskać najlepsze rozwiązania dotyczące korzystania z dowolnego typu puli, zapoznaj się z najlepszymi rozwiązaniami dotyczącymi dedykowanej puli SQL i najlepszymi rozwiązaniami dotyczącymi bezserwerowej puli SQL.

Co to są tabele delty i dlaczego należy ich używać?

Usługa Lakehouse jest oparta na otwartych formatach danych dostępu bezpośredniego, takich jak Apache Parquet. Zapewnia najwyższej klasy obsługę uczenia maszynowego i nauki o danych. Tabela delty to widok danych zawartych w usłudze Delta Lake, który obsługuje większość opcji zapewnianych przez interfejsy API odczytu i zapisu ramki danych platformy Apache Spark. Usługa Lakehouse może pomóc w rozwiązywaniu poważnych problemów z magazynami danych, takimi jak nieaktualność danych, niezawodność, całkowity koszt posiadania i blokada danych. W tabelach delta dostępne są optymalizacje, takie jak automatyczne kompaktowanie i adaptacyjne plany zapytań. Aby uzyskać szczegółowy przewodnik po usłudze Delta Lake, odwiedź stronę Delta Lake Guide (Przewodnik po usłudze Delta Lake).

Co to jest automatyczne kompaktowanie?

Automatyczne kompaktowanie jest jedną z dwóch uzupełniających funkcji autooptymalizowania dla tabel różnicowych. Po pomyślnym zapisie w tabeli automatyczne kompaktowanie może dodatkowo kompaktować pliki dla partycji, które mają największą liczbę małych plików. Rezygnacja z automatycznego kompaktowania jest zalecana w przypadku przypadków użycia przesyłania strumieniowego, w których dodawanie minut opóźnienia jest dopuszczalne i gdy nie masz regularnych wywołań OPTIMIZE w tabeli. Aby uzyskać więcej informacji na temat autooptymalizowania i automatycznego kompaktacji, zapoznaj się z tym przewodnikiem automatycznego optymalizowania.

Pipelines

Jak mogę upewnić się, że wiem, jakie poświadczenia są używane do uruchamiania potoku?

Każde działanie w potoku usługi Synapse jest wykonywane przy użyciu poświadczeń określonych w połączonej usłudze.

Czy W usłudze Synapse są obsługiwane adresy IRS usług SSIS?

Obecnie nie jest to możliwe.

Czym różnią się potoki usługi Azure Data Factory i potoki usługi Azure Synapse?

Niektóre przykłady różnic to obsługa parametrów globalnych, monitorowanie zadań platformy Spark dla Przepływ danych i udostępnianie środowiska Integration Runtime. Aby uzyskać więcej informacji, zapoznaj się z tym dokumentem dla Integracja danych — Synapse vs ADF.

Jak mogę przeprowadzić migrację istniejących potoków z usługi Azure Data Factory do obszaru roboczego usługi Azure Synapse?

W tej chwili należy ręcznie ponownie utworzyć potoki usługi Azure Data Factory i powiązane artefakty, eksportując kod JSON z oryginalnego potoku i importując go do obszaru roboczego usługi Synapse.

Jak mogę użyć definicji zadania platformy Apache Spark?

Zapoznaj się z tym przewodnikiem Szybki start.

Czy można wywoływać notesy z potoków usługi ADF?

Istnieją dwie opcje dla tego przypadku użycia. Jedną z opcji jest zachowanie potoków w usłudze ADF i konieczne będzie zawijanie w działaniu internetowym. Aby uzyskać więcej informacji na temat tej opcji, zapoznaj się z tym przewodnikiem po działaniach internetowych. Drugą opcją jest migracja potoków do usługi Synapse. Aby uzyskać więcej informacji na temat drugiej opcji, zapoznaj się z tym przykładem kodu migracji.

Apache Spark

Jaka jest różnica między platformą Apache Spark dla usługi Synapse i platformą Apache Spark?

Platforma Apache Spark dla usługi Synapse to Platforma Apache Spark z dodatkową obsługą integracji z innymi usługami (Microsoft Entra ID, AzureML itp.) i dodatkowymi bibliotekami (mssparktuils, Hummingbird) i wstępnie dostosowanymi konfiguracjami wydajności.

Każde obciążenie, które jest obecnie uruchomione na platformie Apache Spark, zostanie uruchomione na platformie Apache Spark dla usługi Azure Synapse bez zmian.

Jakie wersje platformy Spark są dostępne?

Od września 2023 r. usługa Azure Synapse Apache Spark w pełni obsługuje platformę Spark 3.3. Aby uzyskać pełną listę podstawowych składników i obecnie obsługiwanych wersji, zobacz Obsługa wersji platformy Apache Spark.

Czy w usłudze Azure Synapse Spark istnieje odpowiednik narzędzi DButils?

Tak, usługa Azure Synapse Apache Spark udostępnia bibliotekę mssparkutils . Aby uzyskać pełną dokumentację narzędzia, zobacz Wprowadzenie do narzędzi Microsoft Spark.

Jak mogę ustawić parametry sesji na platformie Apache Spark?

Aby ustawić parametry sesji, użyj narzędzia %%configure magic available. Aby parametry zaczęły obowiązywać, wymagane jest ponowne uruchomienie sesji.

Jak mogę ustawić parametry poziomu klastra w bezserwerowej puli Spark?

Aby ustawić parametry poziomu klastra, możesz podać plik spark.conf dla puli Spark. Ta pula będzie następnie honorować parametry przeszłości w pliku konfiguracji.

Czy mogę uruchomić wieloużytkowy klaster Spark w usłudze Azure Synapse Analytics?

Usługa Azure Synapse udostępnia specjalnie utworzone aparaty dla określonych przypadków użycia. Platforma Apache Spark dla usługi Synapse jest zaprojektowana jako usługa zadań, a nie model klastra. Istnieją dwa scenariusze, w których użytkownicy pytają o model klastra z wieloma użytkownikami.

Scenariusz nr 1: Wielu użytkowników, którzy uzyskują dostęp do klastra w celu obsługi danych w celach analizy biznesowej.

Najprostszym sposobem wykonania tego zadania jest gotowanie danych za pomocą platformy Spark, a następnie korzystanie z możliwości obsługi usługi Synapse SQL w celu połączenia usługi Power BI z tymi zestawami danych.

Scenariusz nr 2: Posiadanie wielu deweloperów w jednym klastrze w celu zaoszczędzenia pieniędzy.

Aby spełnić ten scenariusz, należy nadać każdemu deweloperowi bezserwerową pulę platformy Spark, która ma używać niewielkiej liczby zasobów platformy Spark. Ponieważ bezserwerowe pule platformy Spark nie kosztują niczego, dopóki nie będą aktywnie używane, zminimalizuje koszt, gdy istnieje wielu deweloperów. Pule współużytkują metadane (tabele platformy Spark), dzięki czemu mogą łatwo pracować ze sobą.

Jak mogę dołączać biblioteki, zarządzać nimi i instalować je?

Pakiety zewnętrzne można zainstalować za pomocą pliku requirements.txt podczas tworzenia puli Spark, z obszaru roboczego usługi Synapse lub witryny Azure Portal. Zobacz Zarządzanie bibliotekami dla platformy Apache Spark w usłudze Azure Synapse Analytics.

Jakie narzędzia są dostępne dla mnie na platformie Synapse Spark?

Narzędzie MSSparkUtils na platformie Synapse Spark oferuje różne narzędzia, które usprawnią Środowisko użytkownika i ułatwiają integrację z innymi narzędziami i usługami. Praca z systemami plików, uzyskiwanie zmiennych środowiskowych, łączenie notesów łańcuchowych i praca z wpisami tajnymi przy minimalnych krokach ręcznych. Aby uzyskać pełną dokumentację, odwiedź stronę Microsoft Spark Utilities.

Dedykowane pule SQL

Jaka jest różnica między dedykowanymi pulami SQL (SQL DW) i dedykowanymi pulami SQL w obszarach roboczych usługi Azure Synapse?

Dedykowane pule SQL (dawniej SQL DW) to platforma magazynowania danych przedsiębiorstwa typu "platforma jako usługa" (PaaS). Możesz wykonywać zapytania dotyczące istniejących dedykowanych pul SQL (dawniej SQL DW), a także tworzyć nowe dedykowane pule SQL w obszarze roboczym usługi Azure Synapse. Nie wszystkie funkcje dedykowanej puli SQL w obszarach roboczych usługi Azure Synapse mają zastosowanie do autonomicznej dedykowanej puli SQL (dawniej SQL DW) i na odwrót. Aby uzyskać więcej informacji, zobacz Co to jest różnica między dedykowanymi pulami SQL usługi Azure Synapse (dawniej SQL DW) i dedykowanymi pulami SQL w obszarze roboczym usługi Azure Synapse Analytics?. Aby włączyć funkcje obszaru roboczego usługi Azure Synapse dla istniejącej dedykowanej puli SQL (dawniej SQL DW), zobacz Jak włączyć obszar roboczy dla dedykowanej puli SQL (dawniej SQL DW).

Jakie są różnice funkcjonalne między dedykowanymi pulami SQL i pulami bezserwerowymi?

Pełną listę różnic w funkcjach języka T-SQL można znaleźć w usłudze Synapse SQL.

Teraz, gdy usługa Azure Synapse jest ogólnie dostępna, jak przenieść dedykowane pule SQL, które były wcześniej autonomiczne do usługi Azure Synapse?

Nie jest konieczne "przenoszenie" ani "migracja". Możesz włączyć nowe funkcje obszaru roboczego w istniejących pulach. Jeśli tak, nie ma żadnych zmian powodujących niezgodność, zamiast tego będzie można używać nowych funkcji, takich jak Synapse Studio, Spark i bezserwerowe pule SQL. Nie wszystkie funkcje dedykowanej puli SQL w obszarach roboczych usługi Azure Synapse mają zastosowanie do dedykowanej puli SQL (dawniej SQL DW) i na odwrót. Aby włączyć funkcje obszaru roboczego dla istniejącej dedykowanej puli SQL (dawniej SQL DW), zobacz Jak włączyć obszar roboczy dla dedykowanej puli SQL (dawniej SQL DW).

Jakie jest teraz domyślne wdrożenie dedykowanych pul SQL?

Domyślnie wszystkie nowe dedykowane pule SQL zostaną wdrożone w obszarze roboczym; Jeśli jednak konieczne jest utworzenie dedykowanej puli SQL (dawniej SQL DW) w autonomicznym elemecie formularza.

Bezpieczeństwo sieci

Jak mogę bezpieczny dostęp do obszaru roboczego usługi Azure Synapse?

Z zarządzaną siecią wirtualną lub bez nią można nawiązać połączenie z obszarem roboczym z sieci publicznych. Aby uzyskać więcej informacji, zobacz Połączenie ivity Ustawienia. Dostęp z sieci publicznych można kontrolować przez włączenie funkcji dostępu do sieci publicznej lub zapory obszaru roboczego. Alternatywnie możesz nawiązać połączenie z obszarem roboczym przy użyciu zarządzanego prywatnego punktu końcowego i usługi Private Link. Obszary robocze usługi Synapse bez zarządzanej sieci wirtualnej usługi Azure Synapse Analytics nie mają możliwości łączenia się za pośrednictwem zarządzanych prywatnych punktów końcowych.