적용 대상:
Azure Data Factory
Azure Synapse Analytics
팁
Microsoft Fabric의 데이터 팩토리는 더 간단한 아키텍처, 기본 제공 AI 및 새로운 기능을 갖춘 차세대 Azure 데이터 팩토리입니다. 데이터 통합을 접하는 경우 Fabric Data Factory부터 시작합니다. 기존 ADF 워크로드는 Fabric 업그레이드하여 데이터 과학, 실시간 분석 및 보고 전반에 걸쳐 새로운 기능에 액세스할 수 있습니다.
- Fabric 무료 평가판을 시작합니다.
Microsoft Fabric의 Data Factory로 Azure Data Factory를 업그레이드합니다
이 자습서에서는 Azure 포털을 사용하여 Databricks 작업 클러스터에 대해 Databricks Notebook을 실행하는 Azure Data Factory 파이프라인을 만듭니다. 또한 실행 중에 Azure Data Factory 매개 변수를 Databricks Notebook에 전달합니다.
이 자습서에서 수행하는 단계는 다음과 같습니다.
데이터 팩터리를 만듭니다.
Databricks Notebook 작업을 사용하는 파이프라인을 만듭니다.
파이프라인 실행을 시작하세요.
파이프라인 실행 현황을 모니터링합니다.
Azure 구독이 없는 경우 시작하기 전에 free 계정 만듭니다.
참고 사항
라이브러리 사용, 입력 및 출력 매개 변수 전달 등 Databricks Notebook 활동을 사용하는 방법에 대한 자세한 내용은 Databricks Notebook 활동 설명서를 참조하세요.
필수 조건
- Azure Databricks 작업 영역. databricks 작업 영역을 만들거나 기존 작업 영역을 사용합니다. Azure Databricks 작업 영역에서 Python Notebook을 만듭니다. 그런 다음 Notebook을 실행하고 Azure Data Factory 사용하여 매개 변수를 전달합니다.
데이터 팩터리 만들기
Microsoft Edge 또는 Google Chrome 웹 브라우저를 시작합니다. 현재 Data Factory UI는 Microsoft Edge 및 Google Chrome 웹 브라우저에서만 지원됩니다.
Azure 포털 메뉴에서 리소스 만들기를 선택한 다음, Analytics>데이터 팩토리를 선택합니다.
데이터 팩터리 만들기 페이지의 Basics 탭에서 데이터 팩터리를 만들려는 Azure Subscription을 선택합니다.
리소스 그룹에 대해 다음 단계 중 하나를 사용합니다.
드롭다운 목록에서 기존 리소스 그룹을 선택합니다.
새로 만들기를 선택하고 새 리소스 그룹의 이름을 입력합니다.
리소스 그룹에 대한 자세한 내용은 리소스 그룹을 사용하여 Azure 리소스 관리 참조하세요.
지역의 경우 데이터 팩터리의 위치를 선택합니다.
목록에는 Data Factory에서 지원하는 위치와 Azure Data Factory 메타 데이터가 저장되는 위치만 표시됩니다. Data Factory에서 사용하는 연결된 데이터 저장소(예: Azure Storage 및 Azure SQL Database) 및 컴퓨팅(예: Azure HDInsight)은 다른 지역에서 실행할 수 있습니다.
이름에 ADFTutorialDataFactory를 입력합니다.
Azure 데이터 팩터리의 이름은 전 세계적으로 고유해야 합니다. 다음 오류가 표시되는 경우 데이터 팩터리 이름을 변경합니다(예: <yourname>ADFTutorialDataFactory 사용). 데이터 팩터리 아티팩트에 대한 명명 규칙은 데이터 팩터리 - 명명 규칙 문서를 참조하세요.
버전에서 V2를 선택합니다.
완료되면 다음: Git 구성을 선택한 다음, 나중에 Git 구성 확인란을 선택합니다.
검토 + 만들기를 선택하고 유효성 검사를 통과한 후 만들기를 선택합니다.
만들기가 완료되면 리소스로 이동을 선택하여 Data Factory 페이지로 이동합니다. Open Azure Data Factory Studio 타일을 선택하여 별도의 브라우저 탭에서 Azure Data Factory UI(사용자 인터페이스) 애플리케이션을 시작합니다.
Azure Data Factory의 홈페이지가 표시된 스크린샷으로, 'Open Azure Data Factory Studio' 타일이 포함되어 있습니다.
연결된 서비스 생성
이 섹션에서는 Databricks 연결된 서비스를 작성합니다. 이 연결된 서비스에는 Databricks 클러스터에 대한 연결 정보가 포함됩니다.
Azure Databricks 연결된 서비스 만들기
홈페이지에서 왼쪽 패널의 관리 탭으로 전환합니다.
연결 아래에서 연결된 서비스를 선택한 다음, + 새로 만들기를 선택합니다.
연결한 서비스 창에서 컴퓨트>Azure Databricks를 선택한 다음, Continue 선택합니다.
새 연결된 서비스 창에서 다음 단계를 완료합니다.
이름에 대해 AzureDatabricks_LinkedService를 입력합니다.
Notebook을 실행할 적절한 Databricks 작업 영역을 선택합니다.
클러스터 선택에 대해 새 작업 클러스터를 선택합니다.
Databricks 작업 영역 URL의 경우 정보가 자동으로 채워져야 합니다.
인증 유형의 경우 Access 토큰을 선택하면 Azure Databricks 작업 영역에서 생성합니다. 단계는 여기서 찾을 수 있습니다. 관리 서비스 ID 및 사용자 할당 관리 ID에 대해 Azure Databricks 리소스의 액세스 제어 메뉴에서 기여자 역할을 부여합니다.
클러스터 버전에 사용할 버전을 선택합니다.
클러스터 노드 유형에 대해 이 자습서의 범용(HDD) 범주 아래에서 Standard_D3_v2를 선택합니다.
근로자에 대해 2를 입력합니다.
만들기를 선택합니다.
파이프라인을 만듭니다.
+(더하기) 단추를 선택한 다음, 메뉴에서 파이프라인을 선택합니다.
파이프라인에서 사용할 매개 변수를 만듭니다. 나중에 이 매개 변수를 Databricks Notebook 작업에 전달합니다. 빈 파이프라인에서 매개 변수 탭, 새로 만들기를 차례로 선택하고, 이름으로 'name'을 지정합니다.
활동 도구 상자에서 Databricks를 펼칩니다. Notebook 활동을 활동 도구 상자에서 파이프라인 디자이너 화면으로 끌어서 놓습니다.
맨 아래에 있는 DatabricksNotebook 작업 창의 속성에서 다음 단계를 완료합니다.
Azure Databricks 탭으로 전환합니다.
이전 절차에서 만든 AzureDatabricks_LinkedService를 선택합니다.
설정 탭으로 전환합니다.
Databricks Notebook 경로를 찾아봅니다. 여기서는 노트북을 만들고 경로를 지정해 보겠습니다. 다음 몇 단계를 따라 Notebook 경로를 가져옵니다.
Azure Databricks 작업 영역을 시작합니다.
작업 공간에서 새 폴더를 만들고 adftutorial로 호출합니다.
새 전자 필기장을 만들고 mynotebook라고 하겠습니다. adftutorial 폴더를 마우스 오른쪽 단추로 클릭하고 만들기를 선택합니다.
새로 생성된 "mynotebook" Notebook에서 다음 코드를 추가합니다.
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") y = dbutils.widgets.get("input") print ("Param -\'input':") print (y)이 경우 Notebook 경로는 /adftutorial/mynotebook입니다.
Data Factory UI 제작 도구로 다시 전환합니다. Notebook1 작업 아래의 설정 탭으로 이동합니다.
a. 매개 변수를 Notebook 작업에 추가합니다. 이전에 파이프라인에 추가한 것과 동일한 매개 변수를 사용합니다.
b. 매개 변수의 이름을 input으로 지정하고 값을 @pipeline().parameters.name 식으로 제공합니다.
파이프라인에 대한 유효성을 검사하려면 도구 모음에서 유효성 검사 단추를 선택합니다. 유효성 검사 창을 닫으려면 닫기 단추를 선택합니다.
모두 게시하기를 선택합니다. Data Factory UI는 엔터티(연결된 서비스 및 파이프라인)를 Azure Data Factory 서비스에 게시합니다.
파이프라인을 실행 트리거합니다
도구 모음에서 트리거 추가를 선택한 다음, 지금 트리거를 선택합니다.
파이프라인 실행 대화 상자에서 name 매개 변수를 요청합니다. 여기서는 /path/filename을 매개 변수로 사용합니다. 확인을 선택합니다.
파이프라인 실행을 모니터링
모니터 탭으로 전환합니다. 파이프라인 실행이 표시되는지 확인합니다. 노트북이 실행되는 Databricks 작업 클러스터를 만드는 데 약 5~8분이 걸립니다.
주기적으로 새로 고침을 선택하여 파이프라인 실행 상태를 확인합니다.
파이프라인 실행과 관련된 활동 실행을 보려면 파이프라인 이름 열에서 pipeline1 링크를 선택합니다.
활동 실행 페이지의 활동 이름 열에서 출력을 선택하여 각 활동 출력을 봅니다. Spark 로그에 대한 자세한 내용은 출력 창의 Databricks 로그의 링크를 참조하세요.
맨 위에 있는 이동 경로 메뉴의 모든 파이프라인 실행 링크를 선택하면 파이프라인 실행 보기로 다시 전환할 수 있습니다.
출력 확인
Azure Databricks 작업 영역에 로그온할 수 있습니다. Job Runs로 이동하면 Job 상태를 사용 실행, 실행 또는 종료됨 확인할 수 있습니다.
작업 이름을 선택하고 자세한 내용을 보려면 탐색할 수 있습니다. 성공적으로 실행되면 전달된 매개 변수와 Python Notebook의 출력의 유효성을 검사할 수 있습니다.
요약
이 샘플의 파이프라인에서 Databricks Notebook 활동을 트리거하고 여기에 매개 변수를 전달합니다. 다음 방법에 대해 알아보았습니다.
데이터 팩터리를 만듭니다.
Databricks Notebook 활동을 사용하는 파이프라인을 만듭니다.
파이프라인 실행을 시작하세요.
파이프라인 실행 현황을 모니터링합니다.