Połącz się ze StreamSets

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Usługa StreamSets ułatwia zarządzanie przepływem danych i monitorowanie go w całym cyklu życia. Natywna integracja StreamSets z usługami Azure Databricks i Delta Lake umożliwia łatwe pozyskiwanie danych z różnych źródeł i zarządzanie potokami.

Aby obejrzeć ogólny pokaz usługi StreamSets, obejrzyj następujące wideo w serwisie YouTube (10 minut).

Poniżej przedstawiono kroki używania usługi StreamSets z usługą Azure Databricks.

Krok 1. Generowanie osobistego tokenu dostępu usługi Databricks

Usługa StreamSets uwierzytelnia się w usłudze Azure Databricks przy użyciu osobistego tokenu dostępu usługi Azure Databricks.

Uwaga

W ramach najlepszych praktyk w zakresie zabezpieczeń usługa Databricks zaleca, aby w przypadku uwierzytelniania za pomocą zautomatyzowanych narzędzi, systemów, skryptów i aplikacji używać osobistych tokenów dostępu należących do jednostek usługi zamiast użytkowników obszaru roboczego. Aby utworzyć tokeny dla jednostek usługi, zobacz Zarządzanie tokenami dla jednostki usługi.

Krok 2. Konfigurowanie klastra w celu obsługi potrzeb związanych z integracją

StreamSets będą zapisywać dane w ścieżce usługi Azure Data Lake Storage, a klaster integracji usługi Azure Databricks będzie odczytywać dane z tej lokalizacji. W związku z tym klaster integracji wymaga bezpiecznego dostępu do ścieżki usługi Azure Data Lake Storage.

Bezpieczny dostęp do ścieżki usługi Azure Data Lake Storage

Aby zabezpieczyć dostęp do danych w usłudze Azure Data Lake Storage (ADLS), możesz użyć klucza dostępu konta usługi Azure Storage (zalecane) lub jednostki usługi Microsoft Entra ID.

Używanie klucza dostępu do konta usługi Azure Storage

Klucz dostępu konta magazynowego można skonfigurować w klastrze integracji w ramach konfiguracji Spark. Upewnij się, że konto magazynu ma dostęp do kontenera i systemu plików ADLS używanego do etapowania danych oraz do kontenera i systemu plików ADLS, w którym chcesz zapisywać tabele Delta Lake. Aby skonfigurować klaster integracji do używania klucza, wykonaj kroki opisane w Connect to Azure Data Lake Storage and Blob Storage.

Używanie jednostki usługi Microsoft Entra ID

Jednostkę usługi można skonfigurować w klastrze integracji usługi Azure Databricks w ramach konfiguracji platformy Spark. Upewnij się, że jednostka usługi ma dostęp do kontenera usługi ADLS używanego do przemieszczania danych i kontenera usługi ADLS, w którym chcesz zapisywać tabele delty. Aby skonfigurować klaster integracji do korzystania z service principal, wykonaj kroki opisane w artykule Access ADLS with service principal.

Określanie konfiguracji klastra

Ustaw Tryb klastra na Standard.
Ustaw wersję środowiska uruchomieniowego usługi Databricks na 6.3 lub nowszą.
Włącz zoptymalizowane zapisy i automatyczne kompaktowanie, dodając następujące właściwości do konfiguracji platformy Spark:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Skonfiguruj klaster w zależności od potrzeb dotyczących integracji i skalowania.

Aby uzyskać szczegółowe informacje o konfiguracji klastra, zobacz Informacje o konfiguracji obliczeniowej.

Zobacz sekcję Uzyskaj szczegóły połączenia dla zasobów obliczeniowych usługi Azure Databricks, aby otrzymać adres URL JDBC i ścieżkę HTTP.

Krok 3. Uzyskiwanie szczegółów połączenia JDBC i ODBC w celu nawiązania połączenia z klastrem

Aby połączyć klaster usługi Azure Databricks z usługą StreamSets, potrzebne są następujące właściwości połączenia JDBC/ODBC:

JDBC URL
HTTP Path (Ścieżka HTTP)

Krok 4: Pobierz StreamSets dla Azure Databricks

Zarejestruj się w usłudze StreamSets dla usługi Databricks, jeśli nie masz jeszcze konta usługi StreamSets. Możesz rozpocząć pracę bezpłatnie i zaktualizować, kiedy będziesz gotowy. Zobacz Cennik platformy StreamSets DataOps.

Krok 5. Dowiedz się, jak za pomocą zestawów StreamSet ładować dane do usługi Delta Lake

Zacznij od przykładowego potoku lub zobacz Ładowanie danych do usługi Databricks Delta Lake , aby dowiedzieć się, jak utworzyć potok, który pozyska dane do usługi Delta Lake.

Dodatkowe zasoby

Pomoc techniczna

Opinia

Czy ta strona była pomocna?

Last updated on 2026-01-17