다음을 통해 공유


Azure Databricks로 데이터를 수집하기 위한 Microsoft SQL Server 구성

중요합니다

Microsoft SQL Server 커넥터는 공개 미리 보기로 제공됩니다.

이 문서에서는 Sql Server에서 Azure Databricks로 수집하기 위해 Lakeflow Connect를 사용하는 데 필요한 원본 설정에 대한 개요를 제공합니다.

변경 내용 추적 및 변경 데이터 캡처

변경 내용 추적 및 CDC(변경 데이터 캡처)를 사용하면 Databricks가 원본 테이블의 변경 내용을 추적할 수 있습니다. Databricks는 기본 키가 있는 테이블에 대해 변경 내용 추적을 사용하여 원본 데이터베이스의 부하를 최소화하는 것이 좋습니다. 변경 내용 추적과 CDC를 모두 사용하는 경우 SQL Server 커넥터는 변경 내용 추적을 사용합니다.

  • 변경 내용 추적: 테이블의 행이 변경되었지만 실제 작업을 캡처하지는 않는다는 사실을 캡처합니다. 변경 내용 추적을 수행하려면 테이블에 기본 키가 있어야 하지만 원본 데이터베이스에 큰 영향을 주지 않는 간단한 프로세스입니다.

  • CDC: 테이블의 모든 작업을 캡처하고 시간에 따른 변경 내용에 대한 기록 보기를 포함합니다. CDC는 테이블에 기본 키가 필요하지 않지만 원본 데이터베이스의 성능에 더 많은 영향을 미칠 수 있습니다.

이러한 옵션 에 대한 자세한 내용은 SQL Server 설명서의 데이터 변경 내용 추적(SQL Server) 을 참조하세요.

원본 설정 작업 개요

Azure Databricks에 데이터를 수집하기 전에 SQL Server에서 다음 작업을 완료해야 합니다.

  1. SQL Server 버전 요구 사항을 충족하는지 확인합니다.

    • 변경 내용 추적을 사용하려면 SQL Server 2012 이상이 있어야 합니다.
    • CDC를 사용하려면 SQL Server 2012 SP1(서비스 팩 1) CU3(누적 업데이트 패키지 3) 이상이 있어야 합니다. SQL Server 2016 이전 버전의 경우 Enterprise Edition도 필요합니다.
  2. 필요한 경우 방화벽 설정을 구성합니다.

  3. SQL Server에서 Databricks 수집 전용이며 권한 요구 사항을 충족하는 데이터베이스 사용자를 만듭니다.

  4. 변경 내용 추적 또는 CDC 사용: