적용 대상:
Azure Data Factory
Azure Synapse Analytics
팁 (조언)
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
파이프라인의 Azure Databricks 작업 활동은 서버리스 작업을 포함하여 Azure Databricks 작업 영역에서 Databricks 작업을 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다. Azure Databricks는 Apache Spark를 실행하기 위해 관리되는 플랫폼입니다.
Azure Data Factory Studio 사용자 인터페이스를 통해 직접 Databricks 작업을 만들 수 있습니다.
UI를 사용하여 파이프라인에 Azure Databricks에 대한 작업 활동 추가
파이프라인에서 Azure Databricks에 대한 작업 작업을 사용하려면 다음 단계를 완료합니다.
파이프라인 활동 창에서 작업을 검색하고 작업 작업을 파이프라인 캔버스로 끌어옵니다.
아직 선택되지 않은 경우 캔버스에서 새 작업 작업을 선택합니다.
Azure Databricks 탭을 선택하여 새 Azure Databricks 연결된 서비스를 선택하거나 만듭니다.
비고
Azure Databricks 작업 활동은 서버리스 클러스터에서 자동으로 실행되므로 연결된 서비스 구성에서 클러스터를 지정할 필요가 없습니다. 대신 서버리스 옵션을 선택합니다.
설정 탭을 선택하고 Azure Databricks에서 실행할 작업, 작업에 전달할 선택적 기본 매개 변수 및 작업을 실행하기 위해 클러스터에 설치할 다른 라이브러리를 지정합니다.
Databricks 작업 활동 정의
Databricks 작업 작업의 샘플 JSON 정의는 다음과 같습니다.
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Databricks 작업 활동 속성
다음 표에서는 JSON 정의에 사용하는 JSON 속성을 설명합니다.
| 재산 | 설명 | 필수 |
|---|---|---|
| 이름 | 파이프라인의 작업 이름입니다. | 예 |
| 설명 | 작업이 어떤 일을 수행하는지 설명하는 텍스트입니다. | 아니오 |
| 유형 | Databricks 작업 활동의 경우, 작업 유형은 DatabricksJob입니다. | 예 |
| 연결된 서비스 이름 | Databricks 작업이 실행되는 연결된 Databricks 서비스의 이름입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요. | 예 |
| jobId | Databricks 작업 영역에서 실행할 작업의 ID입니다. | 예 |
| 작업 매개변수 | 키-값 쌍의 배열입니다. 작업 매개 변수는 각 작업 실행에 사용할 수 있습니다. 작업이 지정되지 않은 매개 변수를 사용하는 경우 작업의 기본값이 사용됩니다. Databricks 작업에서 매개 변수에 대해 자세히 알아보세요. | 아니오 |
작업과 파이프라인 간에 매개 변수 전달
Databricks 작업의 jobParameters 속성을 사용하여 작업에 매개 변수를 전달할 수 있습니다.
비고
작업 매개 변수는 자체 호스팅 IR 버전 5.52.0.0 이상에서만 지원됩니다.