Projektowanie integracji danych i rozwiązania analitycznego za pomocą usługi Azure Synapse Analytics
Usługa Azure Synapse Analytics łączy funkcje analizy danych big data, magazynu danych przedsiębiorstwa i integracji danych. Usługa umożliwia uruchamianie zapytań dotyczących danych bezserwerowych lub danych na dużą skalę. Usługa Azure Synapse obsługuje pozyskiwanie, eksplorację, przekształcanie i zarządzanie danymi oraz obsługuje analizę wszystkich potrzeb analizy biznesowej i uczenia maszynowego.
Informacje o usłudze Azure Synapse Analytics
Usługa Azure Synapse Analytics implementuje architekturę masowego przetwarzania równoległego (MPP) i ma następujące cechy.
Architektura usługi Azure Synapse Analytics obejmuje węzeł kontrolny i pulę węzłów obliczeniowych.
Węzeł kontrolny jest mózgiem architektury. Jest to fronton kontaktujący się ze wszystkimi aplikacjami. Węzły obliczeniowe zapewniają moc obliczeniową. Dane do przetwarzania są rozłożone równomiernie na tych węzłach.
Zapytania są przesyłane w postaci instrukcji języka Transact-SQL i wykonywane przez usługę Azure Synapse Analytics.
Usługa Azure Synapse używa technologii o nazwie PolyBase , która umożliwia pobieranie i wykonywanie zapytań o dane ze źródeł relacyjnych i nierelacyjnych. Możesz zapisać dane odczytywane jako tabele SQL w usłudze Azure Synapse.
Składniki usługi Azure Synapse Analytics
Usługa Azure Synapse Analytics składa się z pięciu elementów:
- Pula SQL usługi Azure Synapse: usługa Synapse SQL oferuje zarówno bezserwerowe, jak i dedykowane modele zasobów do pracy z architekturą opartą na węźle. W przypadku przewidywalnej wydajności i kosztów można utworzyć dedykowane pule SQL. W przypadku obciążeń nieregularnych lub nieplanowanych można użyć zawsze dostępnego, bezserwerowego punktu końcowego SQL.
- Pula platformy Azure Synapse Spark: ta pula to klaster serwerów, na których jest uruchamiana platforma Apache Spark do przetwarzania danych. Logikę przetwarzania danych można napisać przy użyciu jednego z czterech obsługiwanych języków: Python, Scala, SQL i C# (za pośrednictwem platformy .NET dla platformy Apache Spark). Platforma Apache Spark dla usługi Azure Synapse integruje platformę Apache Spark (aparat danych big data typu open source używany do przygotowywania danych, inżynierii danych, ETL i uczenia maszynowego).
- Azure Synapse Pipelines: Azure Synapse Pipelines stosuje możliwości Azure Data Factory. Potoki to oparta na chmurze usługa ETL i integracja danych, która umożliwia tworzenie opartych na danych przepływów pracy do organizowania przenoszenia danych i przekształcania danych na dużą skalę. Możesz uwzględnić działania, które przekształcają dane podczas ich przesyłania, lub łączyć dane z wielu źródeł.
- Azure Synapse Link: ten składnik umożliwia nawiązywanie połączenia z usługą Azure Cosmos DB. Służy do wykonywania analizy niemal w czasie rzeczywistym na danych operacyjnych przechowywanych w bazie danych usługi Azure Cosmos DB.
- Azure Synapse Studio: ten element to internetowe środowisko IDE, które może służyć centralnie do pracy ze wszystkimi możliwościami usługi Azure Synapse Analytics. Za pomocą programu Azure Synapse Studio można tworzyć pule SQL i Spark, definiować i uruchamiać potoki oraz konfigurować linki do zewnętrznych źródeł danych.
Opcje analityczne
Usługa Azure Synapse Analytics obsługuje szereg scenariuszy analitycznych. Podczas przeglądania tabeli zastanów się, w jaki sposób scenariusze mają zastosowanie do organizacji firmy Tailwind Traders.
| Analiza | Scenariusz | opis |
|---|---|---|
| Opisowy | Co się dzieje? | Usługa Azure Synapse stosuje dedykowaną funkcję puli SQL, która umożliwia utworzenie utrwalonego magazynu danych w celu analizowania pytań typu "co teraz". Możesz użyć bezserwerowej puli SQL, aby przygotować dane z plików przechowywanych w usłudze Data Lake w celu interaktywnego utworzenia magazynu danych. |
| Diagnostyka | Dlaczego tak się dzieje? | Funkcja bezserwerowej puli SQL w usłudze Azure Synapse umożliwia interaktywne eksplorowanie danych w usłudze Data Lake. Bezserwerowe pule SQL mogą szybko umożliwić użytkownikowi wyszukiwanie innych danych, które mogą pomóc im zrozumieć , dlaczego pytania. |
| Przewidywanie | Co może się zdarzyć? | Usługa Azure Synapse Analytics używa zintegrowanego aparatu Apache Spark i pul platformy Azure Synapse Spark na potrzeby analizy predykcyjnej. Łączy tę akcję z innymi usługami, takimi jak Azure Machine Learning Services i Azure Databricks, aby pomóc ci odpowiedzieć na pytania dotyczące przyszłości. |
| Nakazowe | Co należy zrobić? | Możesz użyć analityki preskrypcyjnej w czasie rzeczywistym lub niemal w czasie rzeczywistym, aby ułatwić znajdowanie rozwiązań dla pytań dotyczących jakie działania. Usługa Azure Synapse Analytics zapewnia tę funkcję za pośrednictwem platform Apache Spark i usługi Azure Synapse Link oraz dzięki integracji technologii przesyłania strumieniowego, takich jak Azure Stream Analytics. |
Scenariusz biznesowy
Przyjrzyjmy się scenariuszowi, w którym firma obsługuje klientów z informacjami o giełdzie. Aby obsługiwać infrastrukturę firmy Tailwind Traders, należy podać kombinację przetwarzania wsadowego i strumieniowego. Dane z góry do sekundy mogą służyć do monitorowania czasu rzeczywistego, w którym wymagana jest natychmiastowa decyzja o podejmowaniu świadomych decyzji dotyczących zakupu lub sprzedaży z podziałem sekund. Dane historyczne są równie ważne dla widoku trendów w wydajności. Jakiego rodzaju rozwiązanie do integracji magazynu danych i danych zaleca się zapewnienie dostępu do strumieni danych pierwotnych oraz przygotowanych informacji biznesowych pochodzących z tych danych? Usługa Azure Synapse Analytics umożliwia pozyskiwanie danych ze źródeł zewnętrznych, a następnie przekształcanie i agregowanie tych danych w format odpowiedni do przetwarzania analiz.
Kwestie, które należy wziąć pod uwagę podczas wybierania usługi Azure Data Factory lub Azure Synapse Analytics
W poniższej tabeli porównaliśmy kryteria rozwiązania magazynu dotyczące korzystania z usługi Azure Data Factory i usługi Azure Synapse Analytics. Przejrzyj kryteria i zastanów się, które rozwiązanie jest optymalne dla firmy Tailwind Traders.
| Porównaj | Azure Data Factory | Azure Synapse Analytics |
|---|---|---|
| Udostępnianie danych | Dane można udostępniać w różnych fabrykach danych | Nieobsługiwane |
| Szablony rozwiązań | Szablony rozwiązań są dostarczane z galerią szablonów usługi Azure Data Factory | Szablony rozwiązań są udostępniane w centrum wiedzy obszaru roboczego usługi Synapse |
| Przepływy Integration Runtime między regionami | Obsługiwane są przepływy danych między regionami | Nieobsługiwane |
| Monitorowanie danych | Monitorowanie danych jest zintegrowane z usługą Azure Monitor | Dzienniki diagnostyczne są dostępne w usłudze Azure Monitor |
| Monitorowanie zadań platformy Spark na potrzeby przepływu danych | Nieobsługiwane | Zadania platformy Spark można monitorować pod kątem przepływu danych przy użyciu pul platformy Spark usługi Synapse |
Usługa Azure Synapse Analytics to idealne rozwiązanie dla wielu innych scenariuszy. Rozważ następujące opcje:
- Rozważ różne źródła danych. W przypadku różnych źródeł danych korzystających z usługi Azure Synapse Analytics do wykonywania działań związanych z przepływem danych i etL bez użycia kodu.
- Rozważ użycie usługi Machine Learning. Jeśli musisz zaimplementować rozwiązania Machine Learning przy użyciu platformy Apache Spark, możesz użyć usługi Azure Synapse Analytics do wbudowanej obsługi usługi Azure Machine Learning.
- Rozważ integrację usługi Data Lake. Jeśli masz istniejące dane przechowywane w usłudze Data Lake i potrzebujesz integracji z usługą Azure Data Lake i innymi źródłami wejściowymi, usługa Azure Synapse Analytics zapewnia bezproblemową integrację między dwoma składnikami.
- Rozważ analizę w czasie rzeczywistym. Jeśli potrzebujesz analizy w czasie rzeczywistym, możesz użyć funkcji, takich jak usługa Azure Synapse Link, aby analizować dane w czasie rzeczywistym i oferować szczegółowe informacje.