Korzystanie z usługi Azure Databricks w ramach analizy w skali chmury na platformie Azure

Artykuł
10/10/2023

Azure Databricks to platforma analizy danych zoptymalizowana pod kątem platformy Microsoft Azure Cloud Services. Usługa Azure Databricks oferuje dwa środowiska do tworzenia aplikacji intensywnie korzystających z danych:

Usługa Azure Databricks SQL, która umożliwia uruchamianie szybkich zapytań SQL ad hoc w usłudze Data Lake.
Usługa Azure Databricks Nauka o danych & Engineering (czasami nazywana po prostu "obszarem roboczym") to platforma analityczna oparta na platformie Apache Spark. Jest zintegrowana z platformą Azure w celu zapewnienia konfiguracji jednym kliknięciem, usprawnionych przepływów pracy i interaktywnego obszaru roboczego, który umożliwia współpracę między inżynierami danych, analitykami danych i inżynierami uczenia maszynowego.

W przypadku analizy w skali chmury skupimy się na usłudze Azure Databricks Nauka o danych & Engineering.

Omówienie

Dla każdej wdrożonej strefy docelowej danych możesz wdrożyć dwa udostępnione obszary robocze. Jeden dla niezależnego pozyskiwania danych, a drugi do analizy.

Obszar roboczy inżynierii usługi Azure Databricks na potrzeby pozyskiwania i przetwarzania łączy się z usługą Azure Data Lake za pośrednictwem jednostek usługi platformy Azure. Jest on wywoływany przez niezależne pozyskiwanie danych.
Obszar roboczy analizy usługi Azure Databricks można aprowizować dla wszystkich analityków danych i zespołów ds. operacji danych. Ten obszar roboczy łączy się z usługą Azure Data Lake przy użyciu uwierzytelniania przekazywanego firmy Microsoft. Udostępniasz obszar roboczy analizy i nauki o danych usługi Azure Databricks w strefie docelowej danych wszystkim użytkownikom, którzy mają dostęp do obszaru roboczego.

Jeśli masz niezależny aparat pozyskiwania danych, obszar roboczy inżynierii usługi Azure Databricks używa zarówno wystąpienia usługi Azure Key Vault utworzonego w grupie zasobów usługi Azure Metadata Service do uruchamiania potoków pozyskiwania danych z nieprzetworzonych do wzbogaconego.

Obszar roboczy analizy usługi Azure Databricks powinien mieć zasady klastra, które wymagają utworzenia klastrów o wysokiej współbieżności. Ten typ klastra umożliwia eksplorowanie usługi Data Lake przy użyciu przekazywania poświadczeń firmy Microsoft Entra. Aby uzyskać więcej informacji, zobacz Access control and data lake configurations in Azure Data Lake Storage (Kontrola dostępu i konfiguracje magazynu typu data lake w usłudze Azure Data Lake Storage).

Konfigurowanie usługi Azure Databricks

Wdrożenie usługi Azure Databricks jest częściowo oparte na parametrach za pośrednictwem szablonu usługi Azure Resource Manager i skryptów YAML, ale wymaga również ręcznej interwencji w celu skonfigurowania wszystkich obszarów roboczych.

Wszystkie obszary robocze usługi Azure Databricks powinny korzystać z planu Premium, który zapewnia następujące wymagane funkcje:

Zoptymalizowane skalowanie automatyczne obliczeń
Uwierzytelnianie przekazywane poświadczeń firmy Microsoft
Uwierzytelnianie warunkowe
Kontrola dostępu oparta na rolach na potrzeby notesów, klastrów, zadań i tabel
Dzienniki inspekcji

Aby dostosować się do analizy w skali chmury, zalecamy skonfigurowanie następujących domyślnych opcji wdrażania dla wszystkich obszarów roboczych:

Obszary robocze usługi Azure Databricks łączą się z zewnętrznym wystąpieniem magazynu metadanych Apache Hive w strefie docelowej danych.
Konfigurowanie każdego obszaru roboczego w celu wysyłania rejestrowania diagnostycznego usługi Databricks do usługi Azure Log Analytics w usłudze databricks-monitoring-rg
Zaimplementuj zasady klastra, aby ograniczyć możliwość tworzenia klastrów na podstawie zestawu reguł. Aby uzyskać więcej informacji, zobacz Zarządzanie zasadami klastra.
- Zdefiniuj wiele zasad klastra. W ramach procesu dołączania przypisz każdemu grupie docelowej uprawnienie do użycia przez zespół operacyjny strefy docelowej danych. Domyślnie uprawnienie do tworzenia klastra jest przekazywane tylko zespołowi operacyjnemu. Różne zespoły lub grupy mają uprawnienia do korzystania z zasad klastra.
- Użyj zasad klastra w połączeniu z pulami usługi Azure Databricks, aby skrócić czas uruchamiania klastra i skalowania automatycznego przez utrzymywanie zestawu bezczynnych, gotowych do użycia wystąpień. Aby uzyskać więcej informacji, zobacz Pule.
Pobierz wszystkie wpisy tajne operacyjne usługi Azure Databricks, takie jak poświadczenia SPN i parametry połączenia, z wystąpienia usługi Azure Key Vault.
Skonfiguruj oddzielną aplikację dla przedsiębiorstw dla każdego obszaru roboczego do użycia z programem SCIM (system do zarządzania tożsamościami między domenami). Połącz się z obszarem roboczym usługi Azure Databricks, aby kontrolować dostęp i uprawnienia do każdego obszaru roboczego. Aby uzyskać więcej informacji, zobacz Provision users and groups using SCIM and configure SCIM provisioning for Microsoft Entra ID (Aprowizowanie użytkowników i grup przy użyciu protokołu SCIM) i configure SCIM provisioning for Microsoft Entra ID (Aprowizowanie użytkowników i grup przy użyciu protokołu SCIM ) i configure SCIM provisioning for Microsoft Entra ID (Apr

Ostrzeżenie

Niepowodzenie konfigurowania obszaru roboczego usługi Azure Databricks w celu korzystania z interfejsu SCIM usługi Azure Databricks wpływa na sposób zapewniania mechanizmów kontroli zabezpieczeń. Przenosi się z zautomatyzowanego do ręcznego procesu i przerywa wszystkie potoki ciągłej integracji/ciągłego wdrażania.

Następujące opcje kontroli dostępu są ustawione dla wszystkich obszarów roboczych usługi Databricks:

Kontrolka widoczności obszaru roboczego: włączona (ustawienie domyślne: wyłączone)
Kontrolka widoczności klastra: włączona (ustawienie domyślne: wyłączone)
Kontrola widoczności zadania: włączona (ustawienie domyślne: wyłączone)

Możesz włączyć następujące opcje dla obszaru roboczego analizy usługi Azure Databricks:

Eksportowanie notesu: wyłączone (ustawienie domyślne: włączone)
Funkcje schowka tabeli notesów: wyłączone (ustawienie domyślne: włączone)
Kontrola dostępu do tabel: włączona (ustawienie domyślne: wyłączone)
Microsoft Entra — dostęp warunkowy

Wdrażanie usługi Azure Databricks

W przypadku wdrażania obszarów roboczych usługi Azure Databricks w ramach nowego wdrożenia strefy docelowej danych. Na poniższej ilustracji przedstawiono przykładowy przepływ pracy wdrażania środowiska usługi Azure Databricks w analizie w skali chmury.

Diagram of an Azure Databricks deployment into a data landing zone.

Proces aprowizacji najpierw upewnia się, że wystąpienie magazynu metadanych Apache Hive istnieje w strefie docelowej danych. Jeśli nie można odnaleźć magazynu metadanych Apache Hive, kończy działanie i zgłasza błąd.
Po pomyślnym znalezieniu magazynu metadanych Apache Hive zostanie utworzony obszar roboczy.
Proces sprawdza obszar roboczy usługi Log Analytics w strefie docelowej danych. Jeśli nie można odnaleźć obszaru roboczego usługi Log Analytics, zostanie on zamykany i zgłasza błąd.
Dla każdego obszaru roboczego tworzy aplikację Microsoft Entra i konfiguruje protokół SCIM.

W przypadku obszaru roboczego pozyskiwania usługi Azure Databricks:

Proces konfiguruje obszar roboczy z dostępem jednostki usługi.
Wdrażane są zasady inżynierii danych zdefiniowane przez zespół operacyjny platformy danych.
Jeśli zespół operacyjny strefy docelowej danych zażądał pul lub klastrów usługi Databricks, można je zintegrować z procesem wdrażania.
Umożliwia ona opcje obszaru roboczego specyficzne dla obszaru roboczego inżynieryjnego usługi Azure Databricks.

W obszarze roboczym analizy usługi Azure Databricks:

Proces wdraża zasady analityczne danych zdefiniowane przez zespół operacyjny platformy danych.
Jeśli zespół operacyjny strefy docelowej danych zażądał pul lub klastrów usługi Databricks, można je zintegrować z procesem wdrażania.
Umożliwia ona opcje obszaru roboczego specyficzne dla obszaru roboczego inżynieryjnego usługi Azure Databricks.

Zewnętrzny magazyn metadanych programu Hive

We wdrożeniu obszaru roboczego usługi Azure Databricks:

Nowy globalny skrypt inicjowania konfiguruje ustawienia magazynu metadanych Apache Hive dla wszystkich klastrów. Ten skrypt jest zarządzany przez nowy globalny interfejs API skryptów inicjowania .

Nowy globalny interfejs API skryptów inicjowania jest w publicznej wersji zapoznawczej. Funkcje publicznej wersji zapoznawczej w usłudze Azure Databricks są gotowe do obsługi środowisk produkcyjnych i są obsługiwane przez zespół pomocy technicznej. Aby uzyskać więcej informacji, zobacz Wersje zapoznawcze usługi Azure Databricks.

To rozwiązanie używa usługi Azure Database for MySQL do przechowywania wystąpienia magazynu metadanych Apache Hive. Ta baza danych została wybrana pod kątem efektywności kosztowej i wysokiej zgodności z usługą Apache Hive.

Następne kroki

Analiza w skali chmury uwzględnia następujące wytyczne dotyczące integracji usługi Azure Databricks:

Udostępnij za pośrednictwem