Usługa StreamSets ułatwia zarządzanie przepływem danych i monitorowanie go w całym cyklu życia. Usługa StreamSets natywna integracja z usługami Azure Databricks i Delta Lake umożliwia łatwe ściąganie danych z różnych źródeł i zarządzanie potokami.
Aby obejrzeć ogólny pokaz usługi StreamSets, obejrzyj następujące wideo w serwisie YouTube (10 minut).
Poniżej przedstawiono kroki używania usługi StreamSets z usługą Azure Databricks.
Usługa StreamSets uwierzytelnia się w usłudze Azure Databricks przy użyciu osobistego tokenu dostępu usługi Azure Databricks.
Uwaga
Najlepszym rozwiązaniem w zakresie zabezpieczeń w przypadku uwierzytelniania za pomocą zautomatyzowanych narzędzi, systemów, skryptów i aplikacji usługa Databricks zaleca używanie osobistych tokenów dostępu należących do jednostek usługi zamiast użytkowników obszaru roboczego. Aby utworzyć tokeny dla jednostek usługi, zobacz Zarządzanie tokenami dla jednostki usługi.
Krok 2. Konfigurowanie klastra w celu obsługi potrzeb związanych z integracją
Zestawy StreamSet będą zapisywać dane w ścieżce usługi Azure Data Lake Storage, a klaster integracji usługi Azure Databricks odczytuje dane z tej lokalizacji. W związku z tym klaster integracji wymaga bezpiecznego dostępu do ścieżki usługi Azure Data Lake Storage.
Bezpieczny dostęp do ścieżki usługi Azure Data Lake Storage
Aby zabezpieczyć dostęp do danych w usłudze Azure Data Lake Storage (ADLS), możesz użyć klucza dostępu konta usługi Azure Storage (zalecane) lub jednostki usługi Microsoft Entra ID.
Używanie klucza dostępu do konta usługi Azure Storage
Klucz dostępu konta magazynu można skonfigurować w klastrze integracji w ramach konfiguracji platformy Spark. Upewnij się, że konto magazynu ma dostęp do kontenera usługi ADLS i systemu plików używanego do przemieszczania danych oraz kontenera i systemu plików usługi ADLS, w którym chcesz zapisywać tabele usługi Delta Lake. Aby skonfigurować klaster integracji do używania klucza, wykonaj kroki opisane w temacie Nawiązywanie połączenia z usługą Azure Data Lake Storage Gen2 i usługą Blob Storage.
Używanie jednostki usługi Microsoft Entra ID
Jednostkę usługi można skonfigurować w klastrze integracji usługi Azure Databricks w ramach konfiguracji platformy Spark. Upewnij się, że jednostka usługi ma dostęp do kontenera usługi ADLS używanego do przemieszczania danych i kontenera usługi ADLS, w którym chcesz zapisywać tabele delty. Aby skonfigurować klaster integracji do korzystania z jednostki usługi, wykonaj kroki opisane w artykule Access ADLS Gen2 with service principal (Uzyskiwanie dostępu do usługi ADLS Gen2 za pomocą jednostki usługi).
Określanie konfiguracji klastra
Ustaw wartość Tryb klastra na Standardowa.
Ustaw wersję środowiska uruchomieniowego usługi Databricks na środowisko uruchomieniowe: 6.3 lub nowszą.
Krok 3. Uzyskiwanie szczegółów połączenia JDBC i ODBC w celu nawiązania połączenia z klastrem
Aby połączyć klaster usługi Azure Databricks z usługą StreamSets, potrzebne są następujące właściwości połączenia JDBC/ODBC:
JDBC URL
HTTP Path (Ścieżka HTTP)
Krok 4. Pobieranie zestawów streamset dla usługi Azure Databricks
Zarejestruj się w usłudze StreamSets dla usługi Databricks, jeśli nie masz jeszcze konta usługi StreamSets. Możesz rozpocząć pracę bezpłatnie i uaktualnić, gdy wszystko będzie gotowe. zobacz StreamSets DataOps Platform Pricing (Cennik platformy DataOps Usługi StreamSets).
Krok 5. Dowiedz się, jak za pomocą zestawów StreamSet ładować dane do usługi Delta Lake
Zacznij od przykładowego potoku lub zapoznaj się z rozwiązaniami StreamSets, aby dowiedzieć się, jak utworzyć potok, który pozyska dane do usługi Delta Lake.
Omówienie typowych zadań inżynierii danych w celu implementowania obciążeń inżynieryjnych danych i zarządzania nimi na platformie Microsoft Azure przy użyciu wielu usług platformy Azure.
Dowiedz się, jak organizować zadania usługi Azure Databricks w potoku danych przy użyciu platformy Apache Airflow i jak skonfigurować integrację rozwiązania Airflow.