연습 - Azure Data Factory 내에서 컴퓨팅 변환 사용

완료됨

경우에 따라 코드 없는 대규모 변환이 요구 사항을 충족하지 못할 수 있습니다. Azure Data Factory를 사용하면 다양한 원본에서 수집된 원시 데이터를 수집할 수 있으며 Azure Databricks, Azure HDInsight 또는 기타 컴퓨팅 리소스와 같은 다양한 컴퓨팅 리소스와 함께 작업하여 요구 사항에 맞게 데이터를 재구성할 수 있습니다.

ADF와 Azure Databricks

예를 들어 Azure Databricks와 ADF를 통합하면 ADF 파이프라인 내에서 Databricks Notebook을 추가하여 Databricks의 분석 및 데이터 변환 기능을 활용할 수 있습니다. 데이터 워크플로 내에서 Notebook을 추가하면 여러 원본에서 ADF에 로드된 원시 데이터의 구조를 설정하고 데이터를 변환할 수 있습니다. Databricks를 사용하여 변환한 데이터는 어떤 데이터 웨어하우스 원본에나 로드할 수 있습니다.

ADF와 Azure Databricks의 통합 기능을 사용한 데이터 수집과 변환 시에는 기본적으로 다음 단계를 수행합니다.

  1. Azure Storage 계정 만들기 - 첫 단계에서는 수집 및 변환된 데이터를 저장할 Azure Storage 계정을 만듭니다.

  2. Azure Data Factory 생성 - 스토리지 계정을 설정한 후에는 Azure Portal을 사용하여 Azure Data Factory를 만들어야 합니다.

  3. 워크플로 데이터 파이프라인 생성 - 스토리지와 ADF가 작동 및 실행되고 나면 먼저 파이프라인을 생성합니다. 파이프라인을 만드는 첫 단계는 ADF의 복사 활동을 사용해 원본에서 데이터를 복사하는 것입니다. 복사 활동을 사용하면 여러 온-프레미스 및 클라우드 원본에서 데이터를 복사할 수 있습니다.

  4. 파이프라인에에 Databricks Notebook 추가 - ADF에 데이터가 복사되면 복사 활동이 완료된 후에 파이프라인에 Databricks Notebook을 추가합니다. 이 Notebook은 필요에 따라 원시 데이터를 변환하고 정리하기 위한 구문과 코드를 포함할 수 있습니다.

  5. 데이터 분석 수행 - 데이터가 정리되어 필요한 형식으로 구조화되었으므로 Databricks Notebook을 사용해 데이터를 추가로 학습시키거나 분석하여 필요한 결과를 출력할 수 있습니다.

지금까지 Azure Data Factory란 무엇이며, Azure Data Factory와 Azure Databricks를 통합하여 데이터를 쉽게 로드 및 변환할 수 있는 방법에 대해 알아보았습니다. 이제 엔드투엔드 데이터 워크플로 샘플을 만들어 보겠습니다.

Azure Data Factory 파이프라인과 Azure Databricks Notebook 통합

다음과 같이 Azure Data Factory 파이프라인과 Azure Databricks Notebook을 통합하기 위해 수행해야 하는 많은 작업이 있습니다.

  1. Databricks 액세스 토큰 생성.

  2. Databricks Notebook 생성

  3. 연결된 서비스 생성

  4. Databricks Notebook 작업을 사용하는 파이프라인 생성.

  5. 파이프라인 실행 트리거.

    참고

    다음 단계에서는 프로비전된 Azure Databricks 클러스터가 있다고 가정합니다.

작업 1: Databricks 액세스 토큰 생성.

  1. Azure Portal에서 리소스 그룹을 클릭한 후 awrgstudxx를 클릭하고 awdbwsstudxx를 클릭합니다. 여기서 xx는 이름의 이니셜입니다.

  2. 작업 영역 시작을 클릭합니다.

  3. Databricks 작업 영역의 왼쪽 아래 모서리에 있는 사용자 설정을 클릭합니다.

  4. 사용자 설정을 클릭합니다.

  5. 액세스 토큰 탭으로 이동하여 새 토큰 생성 단추를 클릭합니다.

  6. “ADF 통합의 경우” 주석에 설명을 입력하고 수명 기간을 10일로 설정한 후 생성을 클릭합니다.

  7. 생성된 토큰을 복사하여 메모장에 저장한 후 완료를 클릭합니다.

작업 2: Databricks Notebook 생성

  1. 화면 왼쪽에서 작업 영역 아이콘을 클릭한 후 작업 영역 단어 옆에 있는 화살표를 클릭하고 생성를 클릭한 후 폴더를 클릭합니다. 폴더 이름을 adftutorial로 지정하고 폴더 생성를 클릭합니다. 작업 영역에 adftutorial 폴더가 표시됩니다.

  2. adftutorial 옆에 있는 드롭다운 화살표를 클릭한 후 생성를 클릭하고 이어서 Notebook을 클릭합니다.

  3. Notebook 생성 대화 상자에서 이름을 mynotebook으로 입력하고 언어가 Python인지 확인한 후 생성를 클릭합니다. mynotebook이라는 제목의 Notebook이 표시됩니다.

  4. 새로 생성된 "mynotebook" Notebook에서 다음 코드를 추가합니다.

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    참고

    Notebook 경로는 /adftutorial/mynotebook입니다.

작업 3: 연결된 서비스 생성

  1. Microsoft Edge에서 Azure Portal 포털 탭을 클릭하고 Azure Data Factory으로 돌아가서 Azure Data Factory Studio 열기를 클릭합니다.

  2. 화면 왼쪽에서 관리 아이콘을 클릭합니다.

  3. 연결 아래에서 연결된 서비스를 클릭합니다.

  4. 연결된 서비스에서 화면 맨 위에 있는 + 새로 만들기를 클릭합니다.

  5. 컴퓨팅 탭을 클릭하고 Azure Databricks를 클릭한 다음 계속을 클릭합니다.

  6. 새 연결된 서비스(Azure Databricks) 화면에서 다음 세부 정보를 입력하고 마침을 클릭합니다.

    • 이름: xx_dbls, 여기서 xx는 이니셜입니다.
    • Databricks 작업 영역: awdbwsstudxx, 여기서 xx는 이니셜입니다.
    • 클러스터 선택: 기존 클러스터를 사용합니다.
    • 도메인/지역: 채워야 합니다.
    • 액세스 토큰: 메모장에서 액세스 토큰을 복사하여 이 필드에 붙여넣습니다.
    • 기존 클러스터에서 선택: awdbclstudxx, 여기서 xx는 이니셜입니다.
    • 다른 옵션은 기본 설정으로 유지합니다.

    참고 항목

    마침을 클릭하면 xx_dbls가 생성된 작성 및 모니터링 화면으로 돌아가며, 이전 연습에서 생성한 다른 연결된 서비스가 함께 표시됩니다.

작업 4: Databricks Notebook 작업을 사용하는 파이프라인 생성

  1. 화면 왼쪽에서 작성자 아이콘을 클릭한 다음 파이프라인을 클릭합니다. 그러면 파이프라인 디자이너가 있는 탭이 열립니다.

  2. 파이프라인 디자이너의 맨 아래에서 매개 변수 탭을 클릭한 후 + 새로 생성를 클릭합니다.

  3. 문자열 형식의 name이라는 이름의 매개 변수를 생성합니다.

  4. 작업 메뉴에서 Databricks를 펼칩니다.

  5. Notebook을 클릭하여 캔버스로 끌어서 놓습니다.

  6. 맨 아래에 있는 Notebook1 창의 속성에서 다음 단계를 완료합니다.

    • Azure Databricks 탭으로 전환합니다.

    • 이전 절차에서 생성된 xx_dbls를 선택합니다.

    • 설정 탭으로 전환하고 Notebook 경로에 /adftutorial/mynotebook을 넣습니다.

    • 기본 매개 변수를 펼친 후 + 새로 생성를 클릭합니다.

    • 값이 @pipeline().parameters.nameinput이라는 이름의 매개 변수를 생성합니다.

  7. Notebook1에서 템플릿으로 저장 단추 옆에 있는 유효성 검사를 클릭합니다. 화면 오른쪽에 “파이프라인의 유효성이 검사되었습니다. 오류가 없습니다.” 창을 닫으려면 >>을(를) 클릭합니다.

  8. 모두 게시를 클릭하여 연결된 서비스 및 파이프라인을 게시합니다.

    참고

    배포가 성공했다는 메시지가 표시됩니다.

작업 5: 파이프라인 실행 트리거

  1. Notebook1에서 트리거 추가를 클릭하고 디버그 단추 옆의 지금 트리거를 클릭합니다.

  2. 파이프라인 실행 대화 상자에서 name 매개 변수를 요청합니다. 여기서는 /path/filename을 매개 변수로 사용합니다. 마침을 클릭합니다. 캔버스에서 Notebook1 작업 위에 빨간색 원이 표시됩니다.

작업 6: 파이프라인 모니터링

  1. 화면 왼쪽에서 모니터 탭을 클릭합니다. 파이프라인 실행이 표시되는지 확인합니다. 노트북이 실행되는 Databricks 작업 클러스터를 만드는 데 약 5~8분이 걸립니다.

  2. 주기적으로 새로 고침을 선택하여 파이프라인 실행 상태를 확인합니다.

  3. 파이프라인 실행과 연결된 활동 실행을 보려면 작업 열에서 활동 실행 보기를 선택합니다.

작업 7: 출력 확인

  1. Microsoft Edge에서 mynotebook - Databricks 탭을 클릭합니다.

  2. Azure Databricks 작업 영역에서 클러스터를 클릭하면 보류 중인 실행, 실행 중 또는 종료됨과 같은 작업 상태를 확인할 수 있습니다.

  3. awdbclstudxx 클러스터를 클릭한 후 이벤트 로그를 클릭하여 작업을 확인합니다.

    참고

    파이프라인 실행을 트리거한 시간과 함께 시작 중 이벤트 유형이 표시될 것입니다.