Metodologia sukcesu implementacji usługi Synapse: Ocena środowiska
Uwaga
Ten artykuł stanowi część sukcesu implementacji usługi Azure Synapse według serii artykułów projektowych. Aby zapoznać się z omówieniem serii, zobacz Sukces implementacji usługi Azure Synapse zgodnie z projektem.
Pierwszym krokiem podczas implementowania usługi Azure Synapse Analytics jest przeprowadzenie oceny środowiska. Ocena zapewnia możliwość zebrania wszystkich dostępnych informacji o istniejącym środowisku, wymaganiach środowiskowych, wymaganiach dotyczących projektu, ograniczeniach, osiach czasu i punktach bólu. Te informacje będą stanowić podstawę późniejszych ocen i działań punktów kontrolnych. Okaże się to nieocenione, gdy nadejdzie czas na zweryfikowanie i porównanie z rozwiązaniem projektu w miarę planowania, projektowania i opracowywania. Zalecamy poświęcenie dużo czasu na zebranie wszystkich informacji i upewnienie się, że niezbędne dyskusje z odpowiednimi grupami. Odpowiednie grupy mogą obejmować uczestników projektu, użytkowników biznesowych, projektantów rozwiązań i ekspertów z dziedziny (MŚP) istniejącego rozwiązania i środowiska.
Ocena stanie się przewodnikiem ułatwiania oceny projektu rozwiązania i tworzenia świadomych zaleceń dotyczących technologii w celu zaimplementowania usługi Azure Synapse.
Ocena obciążenia
Ocena obciążenia dotyczy środowiska, ról obciążeń analitycznych, ETL/ELT, sieci i zabezpieczeń, środowiska platformy Azure i zużycia danych.
Środowisko
W przypadku środowiska należy ocenić następujące kwestie.
- Opisz istniejące obciążenie analityczne:
- Jakie są obciążenia (takie jak magazyn danych lub dane big data)?
- W jaki sposób to obciążenie pomaga firmie? Jakie są scenariusze przypadków użycia?
- Jaki jest czynnik biznesowy dla tej platformy analitycznej i potencjalnej migracji?
- Zbierz szczegółowe informacje o istniejącej architekturze, projektowaniu i wyborach implementacji.
- Zbierz szczegółowe informacje o wszystkich istniejących składnikach zależnych i podrzędnych oraz użytkownikach nadrzędnych.
- Czy migrujesz istniejący magazyn danych (na przykład Microsoft SQL Server, Microsoft Analytics Platform System (APS), Netezza, Snowflake lub Teradata)?
- Czy migrujesz platformę danych big data (na przykład Cloudera lub Hortonworks)?
- Zbierz diagramy architektury i przepływu danych dla bieżącego środowiska analitycznego.
- Gdzie znajdują się źródła danych dla planowanych obciążeń analitycznych (azure, inni dostawcy usług w chmurze lub lokalnie)?
- Jaki jest całkowity rozmiar istniejących zestawów danych (historycznych i przyrostowych)? Jaki jest bieżący współczynnik wzrostu zestawów danych? Jaki jest przewidywany wskaźnik wzrostu zestawów danych przez następne 2–5 lat?
- Czy masz istniejącą usługę Data Lake? Zbierz jak najwięcej szczegółów dotyczących typów plików (takich jak Parquet lub CSV), rozmiarów plików i konfiguracji zabezpieczeń.
- Czy masz częściowo ustrukturyzowane lub nieustrukturyzowane dane do przetwarzania i analizowania?
- Opisz charakter przetwarzania danych (przetwarzanie wsadowe lub w czasie rzeczywistym).
- Czy potrzebujesz interaktywnej eksploracji danych z danych relacyjnych, magazynu data lake lub innych źródeł?
- Czy potrzebujesz analizy i eksploracji danych w czasie rzeczywistym z operacyjnych źródeł danych?
- Jakie są punkty bólu i ograniczenia w bieżącym środowisku?
- Jakich narzędzi kontroli źródła i metodyki DevOps używasz dzisiaj?
- Czy masz przypadek użycia do tworzenia hybrydowego (chmurowego i lokalnego) rozwiązania analitycznego, tylko w chmurze lub w wielu chmurach?
- Zbierz informacje o istniejącym środowisku chmury. Czy jest to dostawca z jedną chmurą, czy dostawca z wieloma chmurami?
- Zbierz plany dotyczące przyszłego środowiska chmury. Czy będzie to dostawca z jedną chmurą, czy dostawca z wieloma chmurami?
- Jakie są wymagania dotyczące celu punktu odzyskiwania/celu odzyskiwania/wysokiej dostępności/umowy SLA w istniejącym środowisku?
- Jakie są wymagania dotyczące celu punktu odzyskiwania/celu odzyskiwania/czasu odzyskiwania/wysokiej dostępności/umowy SLA w zaplanowanym środowisku?
Role obciążeń analitycznych
W przypadku ról obciążeń analitycznych należy ocenić następujące kwestie.
- Opisz różne role (analityk danych, inżynier danych, analityk danych i inne).
- Opisz wymagania dotyczące kontroli dostępu do platformy analitycznej dla tych ról.
- Zidentyfikuj właściciela platformy odpowiedzialnego za aprowizację zasobów obliczeniowych i udzielanie dostępu.
- Opis sposobu współpracy różnych ról danych.
- Czy istnieje wiele zespołów współpracujących na tej samej platformie analitycznej? Jeśli tak, jakie są wymagania dotyczące kontroli dostępu i izolacji dla każdego z tych zespołów?
- Jakie narzędzia klienckie są używane przez użytkowników końcowych do interakcji z platformą analityczną?
ETL/ELT, transformacja i aranżacja
W przypadku etL/ELT, transformacji i aranżacji należy ocenić następujące kwestie.
- Jakich narzędzi używasz obecnie do pozyskiwania danych (ETL lub ELT)?
- Gdzie te narzędzia istnieją w istniejącym środowisku (lokalnym lub w chmurze)?
- Jakie są bieżące wymagania dotyczące ładowania i aktualizowania danych (w czasie rzeczywistym, mikrosadowe, godzinowe, dzienne, tygodniowe lub miesięczne)?
- Opisz wymagania dotyczące transformacji dla każdej warstwy (dane big data, data lake, magazyn danych).
- Jakie jest bieżące podejście programistyczne do przekształcania danych (bez kodu, małego kodu, programowania, takiego jak SQL, Python, Scala, C#, czy inne)?
- Jakie jest preferowane podejście do programowania planowanego do przekształcania danych (bez kodu, niskiego kodu, programowania, takiego jak SQL, Python, Scala, C#, czy inne)?
- Jakie narzędzia są obecnie używane do orkiestracji danych w celu zautomatyzowania procesu opartego na danych?
- Gdzie znajdują się źródła danych dla istniejącego procesu ETL (Azure, innego dostawcy usług w chmurze lub lokalnie)?
- Jakie są narzędzia do użycia danych (raportowanie, narzędzia analizy biznesowej, narzędzia open source), które wymagają integracji z platformą analityczną?
- Jakie są planowane narzędzia do użycia danych (raportowanie, narzędzia analizy biznesowej, narzędzia open source), które będą wymagały integracji z platformą analityczną?
Sieć i zabezpieczenia
W przypadku sieci i zabezpieczeń należy ocenić następujące kwestie.
- Jakie są wymagania prawne dotyczące danych?
- Jeśli dane zawierają zawartość klienta, branżę kart płatniczych (PCI) lub Health Insurance Portability and Accountability Act z 1996 r. (HIPAA), czy grupa zabezpieczeń ma certyfikat platformy Azure dla tych danych? Jeśli tak, dla których usług platformy Azure?
- Opisz wymagania dotyczące autoryzacji i uwierzytelniania użytkownika.
- Czy występują problemy z zabezpieczeniami, które mogą ograniczyć dostęp do danych podczas implementacji?
- Czy dane testowe są dostępne do użycia podczas programowania i testowania?
- Opisz wymagania dotyczące zabezpieczeń sieci organizacji dotyczące obliczeń analitycznych i magazynu (sieć prywatna, sieć publiczna lub ograniczenia zapory).
- Opisz wymagania dotyczące zabezpieczeń sieci dla narzędzi klienckich w celu uzyskania dostępu do analitycznych zasobów obliczeniowych i magazynu (sieć równorzędna, prywatny punkt końcowy lub inny).
- Opisz bieżącą konfigurację sieci między środowiskiem lokalnym i platformą Azure (azure ExpressRoute, lokacja-lokacja lub inna).
Skorzystaj z poniższych list kontrolnych możliwych wymagań, aby przeprowadzić ocenę.
- Ochrona danych:
- Szyfrowanie podczas przesyłania
- Szyfrowanie magazynowane (klucze domyślne lub klucze zarządzane przez klienta)
- Odnajdywanie i klasyfikacja danych
- Kontrola dostępu:
- Zabezpieczenia na poziomie obiektu
- Zabezpieczenia na poziomie wiersza
- Zabezpieczenia na poziomie kolumny
- Dynamiczne maskowanie danych
- Uwierzytelniania:
- Logowanie sql
- Identyfikator usługi Microsoft Entra
- Uwierzytelnianie wieloskładnikowe (MFA)
- Zabezpieczenia sieci:
- Sieci wirtualne
- Firewall
- Azure ExpressRoute
- Ochrona przed zagrożeniami:
- Wykrywanie zagrożeń
- Inspekcja
- Ocena luk w zabezpieczeniach
Aby uzyskać więcej informacji, zobacz oficjalny dokument dotyczący zabezpieczeń usługi Azure Synapse Analytics.
Środowisko platformy Azure
W przypadku środowiska platformy Azure oceń następujące kwestie.
- Czy obecnie używasz platformy Azure? Czy jest on używany w przypadku obciążeń produkcyjnych?
- Jeśli używasz platformy Azure, których usług używasz? Których regionów używasz?
- Czy używasz usługi Azure ExpressRoute? Jaka jest jego przepustowość?
- Czy masz zatwierdzenie budżetu, aby aprowizować wymagane usługi platformy Azure?
- Jak obecnie aprowizować zasoby (ARM) lub Terraform oraz zarządzać nimi?
- Czy Twój kluczowy zespół jest zaznajomiony z usługą Synapse Analytics? Czy jest wymagane szkolenie?
Zużycie danych
W przypadku użycia danych należy ocenić następujące kwestie.
- Opisz, jak i jakie narzędzia są obecnie używane do wykonywania działań, takich jak pozyskiwanie, eksplorowanie, przygotowywanie i wizualizacja danych.
- Zidentyfikuj narzędzia, których planujesz używać do wykonywania działań, takich jak pozyskiwanie, eksplorowanie, przygotowywanie i wizualizacja danych.
- Jakie aplikacje są planowane do interakcji z platformą analityczną (Microsoft Power BI, Microsoft Excel, Microsoft SQL Server Reporting Services, Tableau lub inne)?
- Zidentyfikuj wszystkich użytkowników danych.
- Identyfikowanie wymagań dotyczących eksportowania danych i udostępniania danych.
Ocena usług Azure Synapse
Ocena usług Azure Synapse dotyczy usług w usłudze Azure Synapse. Usługa Azure Synapse ma następujące składniki do przetwarzania i przenoszenia danych:
- Synapse SQL: rozproszony system zapytań dla języka Transact-SQL (T-SQL), który umożliwia scenariusze magazynowania danych i wirtualizacji danych. Rozszerza również język T-SQL na scenariusze przesyłania strumieniowego i uczenia maszynowego (ML). Usługa Synapse SQL oferuje zarówno modele zasobów bezserwerowych, jak i dedykowanych.
- Bezserwerowa pula SQL: rozproszony system przetwarzania danych utworzony na potrzeby funkcji obliczeniowych i danych na dużą skalę. Nie ma infrastruktury do skonfigurowania ani obsługi klastrów. Ta usługa jest odpowiednia dla nieplanowanych lub rozerwania obciążeń. Zalecane scenariusze obejmują szybką eksplorację danych na plikach bezpośrednio w usłudze Data Lake, magazynie danych logicznych i przekształcaniu danych pierwotnych.
- Dedykowana pula SQL: reprezentuje kolekcję zasobów analitycznych aprowizowania podczas korzystania z usługi Synapse SQL. Rozmiar dedykowanej puli SQL (dawniej SQL DW) jest określany przez Magazyn danych Units (DWU). Ta usługa jest odpowiednia dla magazynu danych z przewidywalnymi, ciągłymi obciążeniami o wysokiej wydajności na danych przechowywanych w tabelach SQL.
- Pula platformy Apache Spark: głęboko i bezproblemowo integruje platformę Apache Spark, która jest najpopularniejszym aparatem danych big data typu open source używanym do przygotowywania danych, inżynierii danych, etl i uczenia maszynowego.
- Potoki integracji danych: usługa Azure Synapse zawiera ten sam aparat integracji danych i środowiska co usługa Azure Data Factory (ADF). Umożliwiają one tworzenie rozbudowanych potoków ETL na dużą skalę bez opuszczania usługi Azure Synapse.
Aby ułatwić określenie najlepszego typu puli SQL (dedykowanej lub bezserwerowej), należy ocenić następujące kwestie.
- Czy chcesz utworzyć tradycyjny magazyn danych relacyjnych, rezerwując moc przetwarzania danych przechowywanych w tabelach SQL?
- Czy przypadki użycia wymagają przewidywalnej wydajności?
- Czy chcesz utworzyć logiczny magazyn danych na podstawie magazynu danych typu data lake?
- Czy chcesz wykonywać zapytania dotyczące danych bezpośrednio z magazynu data lake?
- Czy chcesz eksplorować dane z usługi Data Lake?
W poniższej tabeli porównaliśmy dwa typy puli SQL usługi Synapse.
Porównanie | Dedykowana pula SQL | Bezserwerowa pula SQL |
---|---|---|
Propozycje wartości | W pełni zarządzane możliwości magazynu danych. Przewidywalna i wysoka wydajność dla obciążeń ciągłych. Zoptymalizowane pod kątem zarządzanych (załadowanych) danych. | Łatwe rozpoczęcie pracy i eksplorowanie danych usługi Data Lake. Lepszy całkowity koszt posiadania (TCO) dla obciążeń ad hoc i sporadycznych. Zoptymalizowane pod kątem wykonywania zapytań dotyczących danych w usłudze Data Lake. |
Pakiety robocze | Idealne rozwiązanie w przypadku obciążeń ciągłych. Ładowanie zwiększa wydajność z większą złożonością. Opłaty za jednostkę DWU (o rozmiarze studni) będą opłacalne. | Idealne rozwiązanie w przypadku obciążeń ad hoc lub sporadycznie. Nie ma potrzeby ładowania danych, więc łatwiej jest uruchomić i uruchomić. Naliczanie opłat za użycie będzie korzystne. |
Wydajność zapytań | Zapewnia wysoką współbieżność i małe opóźnienia. Obsługuje zaawansowane opcje buforowania, w tym zmaterializowane widoki. Istnieje możliwość wyboru kompromisów z zarządzaniem obciążeniami (WLM). | Nie nadaje się do obsługi zapytań pulpitu nawigacyjnego. Czasy odpowiedzi w milisekundach nie są oczekiwane. Działa tylko na danych zewnętrznych. |
Ocena dedykowanej puli SQL
W przypadku dedykowanej oceny puli SQL oceń następujące punkty platformy.
- Jaka jest bieżąca platforma magazynu danych (Microsoft SQL Server, Netezza, Teradata, Greenplum lub inne)?
- W przypadku obciążenia migracji określ make i model urządzenia dla każdego środowiska. Uwzględnij szczegóły procesorów CPU, procesorów GPU i pamięci.
- W przypadku migracji urządzenia, kiedy został zakupiony sprzęt? Czy urządzenie zostało w pełni wycofane? Jeśli nie, kiedy zakończy się amortyzacja? A ile wydatków kapitałowych pozostało?
- Czy istnieją diagramy architektury sprzętu i sieci?
- Gdzie znajdują się źródła danych dla planowanego magazynu danych (Azure, inny dostawca usług w chmurze lub lokalny)?
- Jakie są platformy hostingu danych źródeł danych dla magazynu danych (Microsoft SQL Server, Azure SQL Database, DB2, Oracle, Azure Blob Storage, AWS, Hadoop lub inne)?
- Czy istnieją magazyny danych źródeł danych? Jeśli tak, które?
- Zidentyfikuj wszystkie scenariusze ETL, ELT i ładowania danych (okna wsadowe, przesyłanie strumieniowe, niemal w czasie rzeczywistym). Zidentyfikuj istniejące umowy dotyczące poziomu usług (SLA) dla każdego scenariusza i udokumentować oczekiwane umowy SLA w nowym środowisku.
- Jaki jest bieżący rozmiar magazynu danych?
- Jaki współczynnik wzrostu zestawu danych jest przeznaczony dla dedykowanej puli SQL?
- Opisz używane obecnie środowiska (programowanie, testowanie lub produkcja).
- Które narzędzia są obecnie dostępne do przenoszenia danych (ADF, Microsoft SQL Server Integration Services (SSIS), robocopy, Informatica, SFTP lub innych)?
- Czy planujesz załadować dane w czasie rzeczywistym lub niemal w czasie rzeczywistym?
Oceń następujące punkty bazy danych.
- Jaka jest liczba obiektów w każdym magazynie danych (schematy, tabele, widoki, procedury składowane, funkcje)?
- Czy jest to schemat gwiazdy, schemat płatka śniegu czy inny projekt?
- Jakie są największe tabele pod względem rozmiaru i liczby rekordów?
- Jakie są najszersze tabele pod względem liczby kolumn?
- Czy istnieje już model danych przeznaczony dla magazynu danych? Czy to kimball, Inmon, czy projekt schematu gwiazdy?
- Czy wolno zmieniają się wymiary (SCD) w użyciu? Jeśli tak, które typy?
- Czy warstwa semantyczna zostanie zaimplementowana przy użyciu składnic danych relacyjnych lub usług Analysis Services (tabelarycznych lub wielowymiarowych), czy innego produktu?
- Jakie są wymagania dotyczące wysokiej dostępności/celu punktu odzyskiwania/celu odzyskiwania/archiwizacji danych?
- Jakie są wymagania dotyczące replikacji regionów?
Oceń następujące charakterystyki obciążenia.
- Jaka jest szacowana liczba równoczesnych użytkowników lub zadań, które uzyskują dostęp do magazynu danych w godzinach szczytu?
- Jaka jest szacowana liczba równoczesnych użytkowników lub zadań, które uzyskują dostęp do magazynu danych poza godzinami szczytu?
- Czy istnieje okres, kiedy nie będzie żadnych użytkowników ani zadań?
- Jakie są oczekiwania dotyczące wydajności wykonywania zapytań w przypadku zapytań interakcyjnych?
- Jakie są oczekiwania dotyczące wydajności ładowania danych dziennego/tygodniowego/miesięcznego ładowania lub aktualizacji danych?
- Jakie są oczekiwania dotyczące wykonywania zapytań na potrzeby raportowania i zapytań analitycznych?
- Jak złożone będą najczęściej wykonywane zapytania?
- Jaki procent całkowitego rozmiaru zestawu danych to aktywny zestaw danych?
- W przybliżeniu jaki procent obciążenia jest przewidywany do ładowania lub aktualizowania, przetwarzania wsadowego lub raportowania, interakcyjnego zapytania i przetwarzania analitycznego?
- Identyfikowanie wzorców i platform zużywających dane:
- Bieżąca i planowana metoda raportowania oraz narzędzia.
- Które narzędzia aplikacji lub analityczne będą uzyskiwać dostęp do magazynu danych?
- Liczba współbieżnych zapytań?
- Średnia liczba aktywnych zapytań w dowolnym momencie?
- Jaki jest charakter dostępu do danych (interaktywny, ad hoc, eksport lub inne)?
- Role danych i pełny opis ich wymagań dotyczących danych.
- Maksymalna liczba połączeń współbieżnych.
- Wzorzec umowy SLA wydajności zapytań według:
- Użytkownicy pulpitu nawigacyjnego.
- Raportowanie wsadowe.
- Użytkownicy uczenia maszynowego.
- Proces ETL.
- Jakie są wymagania dotyczące zabezpieczeń istniejącego środowiska i dla nowego środowiska (zabezpieczenia na poziomie wiersza, zabezpieczenia na poziomie kolumny, kontrola dostępu, szyfrowanie i inne)?
- Czy masz wymagania dotyczące integracji oceniania modelu uczenia maszynowego z językiem T-SQL?
Ocena bezserwerowej puli SQL
Pula SQL bezserwerowa usługi Synapse obsługuje trzy główne przypadki użycia.
- Podstawowe odnajdywanie i eksplorowanie: szybki powód danych w różnych formatach (Parquet, CSV, JSON) w usłudze Data Lake, dzięki czemu możesz zaplanować sposób wyodrębniania z niego szczegółowych informacji.
- Logiczny magazyn danych: zapewnia abstrakcję relacyjną na podstawie nieprzetworzonych lub różnych danych bez przenoszenia i przekształcania danych, co pozwala na zawsze bieżący widok danych.
- Przekształcanie danych: prosty, skalowalny i wydajny sposób przekształcania danych w jeziorze przy użyciu języka T-SQL, dzięki czemu może być podawany do analizy biznesowej i innych narzędzi lub ładowany do relacyjnego magazynu danych (bazy danych Synapse SQL, usługa Azure SQL Database lub inne).
Różne role danych mogą korzystać z bezserwerowej puli SQL:
- Inżynierowie danych mogą eksplorować usługę Data Lake, przekształcać i przygotowywać dane przy użyciu tej usługi oraz uprościć potoki przekształcania danych.
- Analitycy danych mogą szybko wnioskować o zawartości i strukturze danych w usłudze Data Lake dzięki funkcjom takim jak OPENROWSET i automatyczne wnioskowanie schematu.
- Analitycy danych mogą eksplorować dane i zewnętrzne tabele platformy Spark utworzone przez analityków danych lub inżynierów danych przy użyciu znanych instrukcji języka T-SQL lub ich ulubionych narzędzi do wykonywania zapytań.
- Specjaliści ds . analizy biznesowej mogą szybko tworzyć raporty usługi Power BI na podstawie danych w tabelach data lake i Spark.
Uwaga
Język T-SQL jest używany zarówno w dedykowanej puli SQL, jak i bezserwerowej puli SQL, jednak istnieją pewne różnice w zestawie obsługiwanych funkcji. Aby uzyskać więcej informacji na temat funkcji języka T-SQL obsługiwanych w usłudze Synapse SQL (dedykowanych i bezserwerowych), zobacz Funkcje języka Transact-SQL obsługiwane w usłudze Azure Synapse SQL.
W przypadku oceny bezserwerowej puli SQL należy ocenić następujące kwestie.
- Czy istnieją przypadki użycia do odnajdywania i eksplorowania danych z usługi Data Lake przy użyciu zapytań relacyjnych (T-SQL)?
- Czy istnieją przypadki użycia do utworzenia logicznego magazynu danych na podstawie magazynu danych typu data lake?
- Określ, czy istnieją przypadki użycia do przekształcania danych w usłudze Data Lake bez uprzedniego przenoszenia danych z usługi Data Lake.
- Czy dane są już w usłudze Azure Data Lake Storage (ADLS) lub Azure Blob Storage?
- Jeśli dane są już w usłudze ADLS, czy masz dobrą strategię partycjonowania w usłudze Data Lake?
- Czy masz dane operacyjne w usłudze Azure Cosmos DB? Czy masz przypadki użycia analizy w czasie rzeczywistym w usłudze Azure Cosmos DB bez wpływu na transakcje?
- Zidentyfikuj typy plików w usłudze Data Lake.
- Identyfikowanie umowy SLA dotyczącej wydajności zapytań. Czy wielkość użycia wymaga przewidywalnej wydajności i kosztów?
- Czy masz nieplanowane lub pęknięcie obciążeń analitycznych SQL?
- Zidentyfikuj wzorzec i platformy zużywające dane:
- Bieżąca i planowana metoda raportowania oraz narzędzia.
- Które narzędzia aplikacji lub analityczne będą uzyskiwać dostęp do bezserwerowej puli SQL?
- Średnia liczba aktywnych zapytań w dowolnym momencie.
- Jaki jest charakter dostępu do danych (interaktywny, ad hoc, eksport lub inne)?
- Role danych i pełny opis ich wymagań dotyczących danych.
- Maksymalna liczba połączeń współbieżnych.
- Złożoność zapytań?
- Jakie są wymagania dotyczące zabezpieczeń (kontrola dostępu, szyfrowanie i inne)?
- Jakie są wymagane funkcje języka T-SQL (procedury składowane lub funkcje)?
- Zidentyfikuj liczbę zapytań, które będą wysyłane do bezserwerowej puli SQL, oraz rozmiar zestawu wyników każdego zapytania.
Napiwek
Jeśli dopiero zaczynasz korzystać z bezserwerowych pul SQL, zalecamy zapoznanie się ze ścieżką szkoleniową Tworzenie rozwiązań do analizy danych przy użyciu bezserwerowych pul SQL usługi Azure Synapse.
Ocena puli platformy Spark
Pule platformy Spark w usłudze Azure Synapse umożliwiają korzystanie z następujących kluczowych scenariuszy.
- Inżynieria danych/przygotowywanie danych: platforma Apache Spark zawiera wiele funkcji językowych do obsługi przygotowywania i przetwarzania dużych ilości danych. Przygotowanie i przetwarzanie może sprawić, że dane będą bardziej cenne i umożliwiają korzystanie z nich przez inne usługi Azure Synapse. Jest ona włączona za pośrednictwem wielu języków (C#, Scala, PySpark, Spark SQL) i przy użyciu dostarczonych bibliotek do przetwarzania i łączności.
- Uczenie maszynowe: platforma Apache Spark jest dostarczana z biblioteką MLlib, która jest biblioteką uczenia maszynowego utworzoną na platformie Spark, której można używać z puli spark. Pule platformy Spark obejmują również platformę Anaconda, która jest dystrybucją języka Python, która składa się z różnych pakietów do nauki o danych, w tym uczenia maszynowego. Ponadto platforma Apache Spark w usłudze Synapse udostępnia wstępnie zainstalowane biblioteki dla usługi Microsoft Machine Edukacja, które są odporne na błędy, elastyczne i RESTful ML. W połączeniu z wbudowaną obsługą notesów masz bogate środowisko do tworzenia aplikacji uczenia maszynowego.
Uwaga
Aby uzyskać więcej informacji, zobacz Apache Spark w usłudze Azure Synapse Analytics.
Ponadto usługa Azure Synapse jest zgodna z usługą Delta Lake platformy Linux Foundation. Usługa Delta Lake to warstwa magazynu typu open source, która oferuje transakcje ACID (niepodzielność, spójność, izolacja i trwałość) do obciążeń platformy Apache Spark i danych big data. Aby uzyskać więcej informacji, zobacz Co to jest usługa Delta Lake.
W przypadku oceny puli platformy Spark oceń następujące kwestie.
- Zidentyfikuj obciążenia wymagające inżynierii danych lub przygotowania danych.
- Jasno zdefiniuj typy przekształceń.
- Określ, czy dane nieustrukturyzowane mają być przetwarzane.
- Podczas migracji z istniejącego obciążenia Spark/Hadoop:
- Jaka jest istniejąca platforma danych big data (Cloudera, Hortonworks, usługi w chmurze lub inne)?
- Jeśli jest to migracja ze środowiska lokalnego, czy sprzęt wygasł lub licencje wygasły? Jeśli nie, kiedy nastąpi amortyzacja lub wygaśnięcie?
- Jaki jest istniejący typ klastra?
- Jakie są wymagane biblioteki i wersje platformy Spark?
- Czy jest to migracja platformy Hadoop do platformy Spark?
- Jakie są bieżące lub preferowane języki programowania?
- Jaki jest typ obciążenia (dane big data, uczenie maszynowe lub inne)?
- Jakie są istniejące i planowane narzędzia klienckie i platformy raportowania?
- Jakie są wymagania dotyczące zabezpieczeń?
- Czy istnieją bieżące punkty bólu i ograniczenia?
- Czy planujesz używać usługi Delta Lake lub obecnie jej używać?
- Jak obecnie zarządzasz pakietami?
- Zidentyfikuj wymagane typy klastrów obliczeniowych.
- Określ, czy wymagane jest dostosowanie klastra.
Napiwek
Jeśli dopiero zaczynasz korzystać z pul platformy Spark, zalecamy zapoznanie się ze ścieżką szkoleniową Perform data engineering with Azure Synapse Apache Spark Pools (Wykonywanie inżynierii danych za pomocą pul platformy Apache Spark w usłudze Azure Synapse).
Następne kroki
W następnym artykule z serii sukcesów usługi Azure Synapse z serii projektowania dowiesz się, jak ocenić projekt obszaru roboczego usługi Synapse i sprawdzić, czy spełnia ona wytyczne i wymagania.