Azure Data Factory 또는 Azure Synapse Analytics를 사용하여 Azure Databricks Delta Lake 간에 데이터 복사

아티클
02/23/2024

적용 대상: Azure Data Factory Azure Synapse Analytics

팁

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 Azure Data Factory 및 Azure Synapse의 복사 작업을 사용하여 Azure Databricks Delta Lake에/에서 데이터를 복사하는 방법을 설명합니다. 이 문서는 복사 작업에 대한 일반적인 개요를 제공하는 복사 작업 문서를 기준으로 합니다.

지원되는 기능

이 Azure Databricks Delta Lake 커넥터는 다음 기능에 대해 지원됩니다.

지원되는 기능	IR
복사 작업(원본/싱크)	① ②
매핑 데이터 흐름(원본/싱크)	①
조회 작업	① ②

① Azure 통합 런타임 ② 자체 호스팅 통합 런타임

일반적으로 이 서비스는 다양한 요구 사항을 충족하기 위해 다음과 같은 기능으로 Delta Lake를 지원합니다.

복사 작업은 지원되는 모든 원본 데이터 저장소에서 Azure Databricks Delta Lake 테이블로 데이터를 복사하고 Delta Lake 테이블에서 지원되는 모든 싱크 데이터 저장소로 데이터를 복사하기 위해 Azure Databricks Delta Lake 커넥터를 지원합니다. Databricks 클러스터를 활용하여 데이터 이동을 수행하고 필수 구성 요소 섹션의 세부 정보를 참조하세요.
매핑 데이터 흐름은 Azure Storage의 일반 델타 형식을 소스 및 싱크로 지원하여 코드 없는 ETL용 델타 파일을 읽고 쓸 수 있으며, 관리형 Azure Integration Runtime에서 실행됩니다.
Databricks 작업은 Delta Lake 위에서 코드 중심 ETL 또는 기계 학습 워크로드를 오케스트레이션하도록 지원합니다.

필수 조건

이 Azure Databricks Delta Lake 커넥터를 사용하려면 Azure Databricks에서 클러스터를 설정해야 합니다.

Delta Lake에 데이터를 복사하기 위해 복사 작업에서는 Azure Databricks 클러스터를 호출하여 Azure Storage에서 데이터를 읽습니다. Azure Storage는 원래 원본이거나 서비스가 기본 제공 준비 복사본을 통해 원본 데이터를 처음 쓰는 준비 영역입니다. 싱크로서의 Delta Lake에서 자세히 알아보세요.
마찬가지로, Delta Lake에서 데이터를 복사하기 위해 복사 작업에서는 Azure Databricks 클러스터를 호출하여 Azure Storage에 데이터를 씁니다. Azure Storage는 원본 싱크이거나 서비스가 기본 제공 준비 복사본을 통해 마지막 싱크에 계속 데이터를 쓰는 준비 영역입니다. 소스로서의 Delta Lake에서 자세히 알아보세요.

Databricks 클러스터에는 Azure Blob 또는 Azure Data Lake Storage Gen2 계정, 원본/싱크/준비에 사용되는 스토리지 컨테이너/파일 시스템과 Delta Lake 테이블을 작성하려는 컨테이너/파일 시스템에 대한 액세스 권한이 있어야 합니다.

Azure Data Lake Storage Gen2를 사용하려면 Apache Spark 구성의 일부로 Databricks 클러스터에서 서비스 주체를 구성할 수 있습니다. 서비스 주체를 사용하여 직접 액세스의 단계를 따릅니다.
Azure Blob Storage를 사용하려면 Apache Spark 구성의 일부로 Databricks 클러스터에서 스토리지 계정 액세스 키 또는 SAS 토큰을 구성할 수 있습니다. RDD API를 사용하여 Azure Blob Storage에 액세스의 단계를 따릅니다.

복사 작업을 실행하는 동안 구성한 클러스터가 종료되면 서비스에서 자동으로 시작합니다. 작성 UI를 사용하여 파이프라인을 작성하는 경우 데이터 미리 보기 등의 작업을 위해 라이브 클러스터가 필요하며 서비스에서 사용자 대신 클러스터를 시작하지 않습니다.

클러스터 구성 지정

클러스터 모드 드롭다운에서 표준을 선택합니다.
Databricks Runtime 버전 드롭다운에서 Databricks 런타임 버전을 선택합니다.

Spark 구성에 다음 속성을 추가하여 자동 최적화를 켭니다.

spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true

통합 및 스케일링 요구 사항에 따라 클러스터를 구성합니다.

클러스터 구성에 관한 자세한 내용은 클러스터 구성을 참조하세요.

시작하기

파이프라인에 복사 작업을 수행하려면 다음 도구 또는 SDK 중 하나를 사용하면 됩니다.

UI를 사용하여 Azure Databricks Delta Lake에 연결된 서비스 만들기

다음 단계를 사용하여 Azure Portal UI에서 Azure Databricks Delta Lake에 연결된 서비스를 만듭니다.

Azure Data Factory 또는 Synapse 작업 영역에서 관리 탭으로 이동하여 연결된 서비스를 선택하고 새로 만들기를 클릭합니다.
- Azure Data Factory
- Azure Synapse
delta를 검색하고 Azure Databricks Delta Lake 커넥터를 선택합니다.
서비스 세부 정보를 구성하고, 연결을 테스트하고, 새로운 연결된 서비스를 만듭니다.

커넥터 구성 세부 정보

다음 섹션에서는 Azure Databricks Delta Lake 커넥터에 고유한 엔터티를 정의하는 속성에 관해 자세히 설명합니다.

연결된 서비스 속성

이 Azure Databricks Delta Lake 커넥터는 다음 인증 형식을 지원합니다. 자세한 내용은 해당 섹션을 참조하세요.

액세스 토큰
시스템이 할당한 관리 ID 인증
사용자가 할당한 관리 ID 인증

액세스 토큰

Azure Databricks Delta Lake 연결된 서비스에 대해 다음 속성이 지원됩니다.

속성	설명	필수
type	type 속성은 AzureDatabricksDeltaLake로 설정해야 합니다.	예
도메인	Azure Databricks 작업 영역 URL(예: `https://adb-xxxxxxxxx.xx.azuredatabricks.net`)을 지정합니다.
clusterId	기존 클러스터의 클러스터 ID를 지정합니다. 이미 만든 대화형 클러스터여야 합니다. Databricks 작업 영역 -> 대화형 클러스터 이름 -> 구성 -> 태그에서 대화형 클러스터의 클러스터 ID를 찾을 수 있습니다. 자세히 알아보기.
accessToken	서비스가 Azure Databricks에서 인증을 받으려면 액세스 토큰이 필요합니다. 액세스 토큰은 Databricks 작업 영역에서 생성해야 합니다. 액세스 토큰을 찾는 더 자세한 단계는 여기에서 확인할 수 있습니다.
connectVia	데이터 저장소에 연결하는 데 사용되는 통합 런타임입니다. Azure 통합 런타임 또는 자체 호스트 통합 런타임(데이터 저장소가 개인 네트워크에 있는 경우)을 사용할 수 있습니다. 지정하지 않으면 기본 Azure 통합 런타임을 사용합니다.	아니요

예제:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "accessToken": {
                "type": "SecureString", 
                "value": "<access token>"
          	}
        }
    }
}

시스템이 할당한 관리 ID 인증

Azure 리소스에 대한 시스템 할당 관리 ID에 대한 자세한 내용은 Azure 리소스에 대한 시스템 할당 관리 ID를 참조하세요.

시스템이 할당한 관리 ID 인증을 사용하려면 다음 단계를 수행하여 권한을 부여합니다.

데이터 팩터리 또는 Synapse 작업 영역과 함께 생성된 관리 ID 개체 ID 값을 복사하여 관리 ID 정보를 검색합니다.
Azure Databricks에서 관리 ID에 올바른 권한을 부여합니다. 일반적으로 Azure Databricks의 IAM(액세스 제어)에서 시스템 할당 관리 ID에 최소한 기여자 역할을 부여해야 합니다.

Azure Databricks Delta Lake 연결된 서비스에 대해 다음 속성이 지원됩니다.

속성	설명	필수
type	type 속성은 AzureDatabricksDeltaLake로 설정해야 합니다.	예
도메인	Azure Databricks 작업 영역 URL(예: `https://adb-xxxxxxxxx.xx.azuredatabricks.net`)을 지정합니다.	예
clusterId	기존 클러스터의 클러스터 ID를 지정합니다. 이미 만든 대화형 클러스터여야 합니다. Databricks 작업 영역 -> 대화형 클러스터 이름 -> 구성 -> 태그에서 대화형 클러스터의 클러스터 ID를 찾을 수 있습니다. 자세히 알아보기.	예
workspaceResourceId	Azure Databricks의 작업 영역 리소스 ID를 지정합니다.	예
connectVia	데이터 저장소에 연결하는 데 사용되는 통합 런타임입니다. Azure 통합 런타임 또는 자체 호스트 통합 런타임(데이터 저장소가 개인 네트워크에 있는 경우)을 사용할 수 있습니다. 지정하지 않으면 기본 Azure 통합 런타임을 사용합니다.	아니요

예제:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "workspaceResourceId": "<workspace resource id>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

사용자가 할당한 관리 ID 인증

Azure 리소스에 대한 사용자 할당 관리 ID에 대한 자세한 내용은 사용자 할당 관리 ID를 참조하세요.

사용자가 할당한 관리 ID 인증을 사용하려면 다음 단계를 수행합니다.

하나 이상의 사용자 할당 관리 ID를 만들고 Azure Databricks에서 권한을 부여합니다. 일반적으로 Azure Databricks의 IAM(액세스 제어)에서 사용자 할당 관리 ID에 최소한 기여자 역할을 부여해야 합니다.
하나 이상의 사용자 할당 관리 ID를 데이터 팩터리 또는 Synapse 작업 영역에 할당하고 각 사용자 할당 관리 ID에 대해 자격 증명을 만들기합니다.

Azure Databricks Delta Lake 연결된 서비스에 대해 다음 속성이 지원됩니다.

속성	설명	필수
type	type 속성은 AzureDatabricksDeltaLake로 설정해야 합니다.	예
도메인	Azure Databricks 작업 영역 URL(예: `https://adb-xxxxxxxxx.xx.azuredatabricks.net`)을 지정합니다.	예
clusterId	기존 클러스터의 클러스터 ID를 지정합니다. 이미 만든 대화형 클러스터여야 합니다. Databricks 작업 영역 -> 대화형 클러스터 이름 -> 구성 -> 태그에서 대화형 클러스터의 클러스터 ID를 찾을 수 있습니다. 자세히 알아보기.	예
credentials	사용자가 할당한 관리 ID를 자격 증명 개체로 지정합니다.	예
workspaceResourceId	Azure Databricks의 작업 영역 리소스 ID를 지정합니다.	예
connectVia	데이터 저장소에 연결하는 데 사용되는 통합 런타임입니다. Azure 통합 런타임 또는 자체 호스트 통합 런타임(데이터 저장소가 개인 네트워크에 있는 경우)을 사용할 수 있습니다. 지정하지 않으면 기본 Azure 통합 런타임을 사용합니다.	아니요

예제:

{
    "name": "AzureDatabricksDeltaLakeLinkedService",
    "properties": {
        "type": "AzureDatabricksDeltaLake",
        "typeProperties": {
            "domain": "https://adb-xxxxxxxxx.xx.azuredatabricks.net",
            "clusterId": "<cluster id>",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            },
            "workspaceResourceId": "<workspace resource id>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

데이터 세트 속성

데이터 세트 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 데이터 세트 문서를 참조하세요.

Azure Databricks Delta Lake 데이터 세트에 다음 속성이 지원됩니다.

속성	설명	필수
type	데이터 세트의 type 속성을 AzureDatabricksDeltaLakeDataset로 설정해야 합니다.	예
database	데이터베이스 이름입니다.	원본에는 아니요이고 싱크에는 예입니다.
table	델타 테이블의 이름입니다.	원본에는 아니요이고 싱크에는 예입니다.

예제:

{
    "name": "AzureDatabricksDeltaLakeDataset",
    "properties": {
        "type": "AzureDatabricksDeltaLakeDataset",
        "typeProperties": {
            "database": "<database name>",
            "table": "<delta table name>"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "linkedServiceName": {
            "referenceName": "<name of linked service>",
            "type": "LinkedServiceReference"
        }
    }
}

복사 작업 속성

작업 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 파이프라인 문서를 참조하세요. 이 섹션에서는 Azure Databricks Delta Lake 원본 및 싱크에서 지원하는 속성 목록을 제공합니다.

원본으로서의 Delta Lake

Azure Databricks Delta Lake에서 데이터를 복사하기 위해 복사 작업 원본 섹션에서 지원되는 속성은 다음과 같습니다.

속성	설명	필수
type	복사 작업 원본의 type 속성을 AzureDatabricksDeltaLakeSource로 설정해야 합니다.	예
query	데이터를 읽는 SQL 쿼리를 지정합니다. 시간 이동 컨트롤의 경우 다음 패턴을 따릅니다. - `SELECT * FROM events TIMESTAMP AS OF timestamp_expression` - `SELECT * FROM events VERSION AS OF version`	아니요
exportSettings	델타 테이블에서 데이터를 검색하는 데 사용되는 고급 설정입니다.	아니요
`exportSettings`에서:
type	내보내기 명령의 형식은 AzureDatabricksDeltaLakeExportCommand로 설정합니다.	예
dateFormat	날짜 형식을 날짜 형식의 문자열로 지정합니다. 사용자 지정 날짜 형식은 날짜 시간 패턴의 형식을 따릅니다. 지정하지 않으면 기본값 `yyyy-MM-dd`을 사용합니다.	아니요
timestampFormat	타임스탬프 형식을 타임스탬프 형식의 문자열로 지정합니다. 사용자 지정 날짜 형식은 날짜 시간 패턴의 형식을 따릅니다. 지정하지 않으면 기본값 `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`을 사용합니다.	아니요

Delta Lake에서 직접 복사

싱크 데이터 저장소와 형식이 이 섹션에 설명된 조건을 충족하는 경우 복사 작업을 사용하여 Azure Databricks Delta 테이블에서 싱크로 직접 복사할 수 있습니다. 이 서비스는 설정을 확인하고 다음 조건이 충족되지 않으면 복사 작업 실행에 실패합니다.

싱크 연결된 서비스는 Azure Blob Storage 또는 Azure Data Lake Storage Gen2입니다. 계정 자격 증명은 Azure Databricks 클러스터 구성에서 사전 구성되어야 합니다. 사전 요구 사항에서 자세히 알아보세요.
싱크 데이터 형식은 다음과 같이 구성된 Parquet, 구분된 텍스트 또는 Avro이며 파일이 아니라 폴더를 가리킵니다.
- Parquet 형식의 경우 압축 코덱은 none, snappy또는 gzip입니다.
- 구분된 텍스트 형식의 경우:
  - rowDelimiter는 단일 문자입니다.
  - compression은 none, bzip2, gzip일 수 있습니다.
  - encodingName UTF-7은 지원되지 않습니다.
- Avro 형식의 경우 압축 코덱은 none, deflate또는 snappy입니다.
복사 작업 원본에서 additionalColumns가 지정되지 않았습니다.
복사 작업 싱크에서 데이터를 구분된 텍스트로 복사하는 경우 fileExtension ".csv"여야 합니다.
복사 작업 매핑에서 형식 변환이 사용되지 않습니다.

예제:

"activities":[
    {
        "name": "CopyFromDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delta lake input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureDatabricksDeltaLakeSource",
                "sqlReaderQuery": "SELECT * FROM events TIMESTAMP AS OF timestamp_expression"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Delta Lake에서 스테이징된 복사

싱크 데이터 저장소 또는 형식이 마지막 섹션에서 언급된 대로 직접 복사 기준과 일치하지 않는 경우 중간 Azure Storage 인스턴스를 사용하여 기본 제공 스테이징된 복사를 사용하도록 설정합니다. 준비된 복사 기능을 사용할 경우, 처리량도 향상됩니다. 이 서비스는 Azure Databricks Delta Lake의 데이터를 준비 스토리지로 내보낸 다음, 데이터를 싱크에 복사하고 마지막으로 준비 스토리지에서 임시 데이터를 정리합니다. 스테이징을 사용하는 데이터 복사에 관한 자세한 내용은 준비된 복사를 참조하세요.

이 기능을 사용하려면 Azure Blob Storage 연결된 서비스 또는 스토리지 계정을 임시 준비로 참조하는 Azure Data Lake Storage Gen2 연결된 서비스를 만듭니다. 그런 다음, 복사 작업에서 enableStaging 및 stagingSettings 속성을 지정합니다.

참고 항목

준비 스토리지 계정 자격 증명은 Azure Databricks 클러스터 구성에서 사전 구성되어야 합니다. 사전 요구 사항에서 자세히 알아보세요.

예제:

"activities":[
    {
        "name": "CopyFromDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delta lake input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureDatabricksDeltaLakeSource",
                "sqlReaderQuery": "SELECT * FROM events TIMESTAMP AS OF timestamp_expression"
            },
            "sink": {
                "type": "<sink type>"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingStorage",
                    "type": "LinkedServiceReference"
                },
                "path": "mystagingpath"
            }
        }
    }
]

싱크로서의 Delta Lake

Azure Databricks Delta Lake에 데이터를 복사하기 위해 복사 작업 싱크 섹션에서 지원되는 속성은 다음과 같습니다.

속성	설명	필수
type	복사 작업 싱크의 type 속성을 AzureDatabricksDeltaLakeSink로 설정합니다.	예
preCopyScript	각 실행 시 Databricks 델타 테이블에 데이터를 쓰기 전에 실행할 복사 작업의 SQL 쿼리를 지정합니다. 예: `VACUUM eventsTable DRY RUN` 이 속성을 사용하여 미리 로드된 데이터를 정리하거나 자르기 테이블 또는 Vacuum문을 추가할 수 있습니다.	아니요
importSettings	델타 테이블에 데이터를 쓰는 데 사용되는 고급 설정입니다.	아니요
`importSettings`에서:
type	가져오기 명령의 형식은 AzureDatabricksDeltaLakeImportCommand입니다.	예
dateFormat	문자열의 형식을 날짜 형식의 날짜 형식으로 지정합니다. 사용자 지정 날짜 형식은 날짜 시간 패턴의 형식을 따릅니다. 지정하지 않으면 기본값 `yyyy-MM-dd`을 사용합니다.	아니요
timestampFormat	문자열의 형식을 타임스탬프 형식의 타임스탬프 형식으로 지정합니다. 사용자 지정 날짜 형식은 날짜 시간 패턴의 형식을 따릅니다. 지정하지 않으면 기본값 `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`을 사용합니다.	아니요

Delta Lake로 직접 복사

원본 데이터 저장소와 형식이 이 섹션에 설명된 조건을 충족하는 경우 복사 작업을 사용하여 원본에서 Azure Databricks Delta Lake로 직접 복사할 수 있습니다. 이 서비스는 설정을 확인하고 다음 조건이 충족되지 않으면 복사 작업 실행에 실패합니다.

원본 연결된 서비스는 Azure Blob Storage 또는 Azure Data Lake Storage Gen2입니다. 계정 자격 증명은 Azure Databricks 클러스터 구성에서 사전 구성되어야 합니다. 사전 요구 사항에서 자세히 알아보세요.
원본 데이터 형식은 다음과 같이 구성된 Parquet, 구분된 텍스트 또는 Avro이며 파일이 아니라 폴더를 가리킵니다.
- Parquet 형식의 경우 압축 코덱은 none, snappy또는 gzip입니다.
- 구분된 텍스트 형식의 경우:
  - rowDelimiter는 기본값 또는 임의의 문자 하나입니다.
  - compression은 none, bzip2, gzip일 수 있습니다.
  - encodingName UTF-7은 지원되지 않습니다.
- Avro 형식의 경우 압축 코덱은 none, deflate또는 snappy입니다.
복사 작업 원본에서는 다음이 해당됩니다.
- wildcardFileName은 ?가 아니라 와일드카드 *만 포함하며, wildcardFolderName은 지정되어 있지 않습니다.
- prefix, modifiedDateTimeStart, modifiedDateTimeEnd 및 enablePartitionDiscovery는 지정되지 않습니다.
- additionalColumns을(를) 지정하지 않았습니다.
복사 작업 매핑에서 형식 변환이 사용되지 않습니다.

예제:

"activities":[
    {
        "name": "CopyToDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Delta lake output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureDatabricksDeltaLakeSink",
                "sqlReadrQuery": "VACUUM eventsTable DRY RUN"
            }
        }
    }
]

delta lake로 스테이징된 복사

원본 데이터 저장소 또는 형식이 마지막 섹션에서 언급된 대로 직접 복사 기준과 일치하지 않는 경우 중간 Azure 스토리지 인스턴스를 사용하여 기본 제공 스테이징된 복사를 사용하도록 설정합니다. 준비된 복사 기능을 사용할 경우, 처리량도 향상됩니다. 이 서비스는 데이터 형식 요구 사항을 충족하도록 데이터를 자동으로 스테이징 스토리지로 변환한 다음, 데이터를 Delta Lake에 로드합니다. 마지막으로 스토리지에서 임시 데이터를 정리합니다. 스테이징을 사용하는 데이터 복사에 관한 자세한 내용은 준비된 복사를 참조하세요.

참고 항목

준비 스토리지 계정 자격 증명은 Azure Databricks 클러스터 구성에서 사전 구성되어야 합니다. 사전 요구 사항에서 자세히 알아보세요.

예제:

"activities":[
    {
        "name": "CopyToDeltaLake",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Delta lake output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureDatabricksDeltaLakeSink"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingBlob",
                    "type": "LinkedServiceReference"
                },
                "path": "mystagingpath"
            }
        }
    }
]

모니터링

다른 커넥터의 경우와 동일한 복사 작업 모니터링 환경이 제공됩니다. 또한 Delta Lake에서/에 데이터를 로드하는 작업이 Azure Databricks 클러스터에서 실행되므로 자세한 클러스터 로그를 확인하고 성능을 모니터링할 수 있습니다.

조회 작업 속성

속성에 대한 자세한 내용은 조회 작업을 참조하세요.

복사 작업에서 원본 및 싱크로 지원되는 데이터 저장소 목록은 지원되는 데이터 저장소 및 형식을 참조하세요.

Azure Data Factory 또는 Azure Synapse Analytics를 사용하여 Azure Databricks Delta Lake 간에 데이터 복사

지원되는 기능

필수 조건

클러스터 구성 지정

시작하기

UI를 사용하여 Azure Databricks Delta Lake에 연결된 서비스 만들기

커넥터 구성 세부 정보

연결된 서비스 속성

액세스 토큰

시스템이 할당한 관리 ID 인증

사용자가 할당한 관리 ID 인증

데이터 세트 속성

복사 작업 속성

원본으로서의 Delta Lake

Delta Lake에서 직접 복사

Delta Lake에서 스테이징된 복사

싱크로서의 Delta Lake

Delta Lake로 직접 복사

delta lake로 스테이징된 복사

모니터링

조회 작업 속성

관련 콘텐츠

추가 리소스