다음을 통해 공유


StreamSets에 연결

Important

이 기능은 공개 미리 보기 상태입니다.

StreamSets를 사용하면 수명 주기 내내 데이터 흐름을 관리하고 모니터링할 수 있습니다. Azure Databricks 및 Delta Lake와의 StreamSets 네이티브 통합을 사용하면 다양한 원본에서 데이터를 가져오고 파이프라인을 간편하게 관리할 수 있습니다.

StreamSets의 일반적인 데모를 보려면 다음 YouTube 동영상(10분)을 시청하세요.

Azure Databricks와 함께 StreamSets를 사용하기 위한 단계는 다음과 같습니다.

1단계: Databricks 개인용 액세스 토큰 생성

StreamSets는 Azure Databricks 개인용 액세스 토큰을 사용하여 Azure Databricks로 인증합니다.

참고 항목

보안 모범 사례로, 자동화된 도구, 시스템, 스크립트 및 앱을 사용하여 인증하는 경우 Databricks는 작업 영역 사용자 대신 서비스 주체에 속한 개인용 액세스 토큰을 사용하는 것이 좋습니다. 서비스 주체에 대한 토큰을 만들려면 서비스 주체에 대한 토큰 관리를 참조하세요.

2단계: 통합 요구 사항을 지원하도록 클러스터 설정

StreamSets는 Azure Data Lake Storage 경로에 데이터를 쓰고 Azure Databricks 통합 클러스터는 해당 위치에서 데이터를 읽습니다. 따라서 통합 클러스터에는 Azure Data Lake Storage 경로에 대한 보안 액세스가 필요합니다.

Azure Data Lake Storage 경로에 대한 보안 액세스

ADLS(Azure Data Lake Storage)의 데이터에 대한 액세스를 보호하려면 Azure Storage 계정 액세스 키(권장) 또는 Microsoft Entra ID 서비스 주체를 사용할 수 있습니다.

Azure Storage 계정 액세스 키

Spark 구성의 일부로 통합 클러스터에서 스토리지 계정 액세스 키를 구성할 수 있습니다. 스토리지 계정이 데이터 준비에 사용되는 ADLS 컨테이너 및 파일 시스템과 Delta Lake 테이블을 쓰려는 ADLS 컨테이너 및 파일 시스템에 액세스할 수 있는지 확인합니다. 키를 사용하도록 통합 클러스터를 구성하려면 Azure Data Lake Storage Gen2 및 Blob Storage에 커넥트 단계를 수행합니다.

Microsoft Entra ID 서비스 주체 사용

Spark 구성의 일부로 Azure Databricks 통합 클러스터에서 서비스 주체를 구성할 수 있습니다. 서비스 주체가 데이터 준비에 사용되는 ADLS 컨테이너와 Delta 테이블을 쓰려는 ADLS 컨테이너에 액세스할 수 있는지 확인합니다. 서비스 주체를 사용하도록 통합 클러스터를 구성하려면 서비스 주체를 사용하여 ADLS Gen2에 액세스의 단계를 따르세요.

클러스터 구성 지정

  1. 클러스터 모드표준으로 설정합니다.

  2. Databricks Runtime 버전을 런타임: 6.3 이상으로 설정합니다.

  3. Spark 구성에 다음 속성을 추가하여 최적화된 쓰기 및 자동 압축사용하도록 설정합니다.

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 통합 및 스케일링 요구 사항에 따라 클러스터를 구성합니다.

클러스터 구성 세부 정보는 컴퓨팅 구성 참조를 참조하세요.

JDBC URL 및 HTTP 경로를 가져오는 단계는 Azure Databricks 컴퓨팅 리소스에 대한 연결 세부 정보 가져오기를 참조하세요.

3단계: 클러스터에 연결하기 위한 JDBC 및 ODBC 연결 세부 정보 가져오기

Azure Databricks 클러스터를 StreamSets에 연결하려면 다음 JDBC/ODBC 연결 속성이 필요합니다.

  • JDBC URL
  • HTTP 경로

4단계: Azure Databricks용 StreamSets 가져오기

아직 StreamSets 계정이 없는 경우 Databricks용 StreamSets가입합니다. 무료로 시작하고 준비가 되면 업그레이드할 수 있습니다. StreamSets DataOps 플랫폼 가격 책정을 참조하세요.

5단계: StreamSets를 사용하여 Delta Lake로 데이터를 로드하는 방법 알아보기

샘플 파이프라인으로 시작하거나 StreamSets 솔루션을 확인하여 데이터를 Delta Lake로 수집하는 파이프라인을 빌드하는 방법을 알아봅니다.

추가 리소스

지원