액세스 열기: 파이프라인을 사용하여 OneLake로 데이터 수집 및 Azure Databricks로 분석

중요

Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다.

이 가이드에서는 다음을 수행합니다.

  • 작업 영역에서 파이프라인 만들기 및 델타 형식의 OneLake로 데이터 수집
  • Azure Databricks를 사용하여 OneLake에서 델타 테이블 분석

사전 요구 사항

  • 레이크하우스 항목이 있는 작업 영역입니다.
  • 프리미엄 Azure Databricks 작업 영역. 프리미엄 Azure Databricks 작업 영역만 Microsoft Azure Active Directory 자격 증명 통과를 지원합니다. 클러스터를 만들 때 고급 옵션에서 Azure Data Lake Storage 자격 증명 통과를 사용하도록 설정합니다.
  • 샘플 데이터 세트입니다.

단계

  1. Power BI 서비스 레이크하우스로 이동하고 데이터 가져오기를 선택한 다음 새 데이터 파이프라인을 선택합니다.

    UI 내에서 새 데이터 파이프라인 옵션으로 이동하는 방법을 보여 주는 스크린샷

  2. 새 파이프라인 프롬프트에서 새 파이프라인의 이름을 입력한 다음 만들기를 선택합니다.

  3. 이 연습에서는 NYC Taxi - 녹색 샘플 데이터를 데이터 원본으로 선택합니다. 샘플 데이터 세트를 선택한 후 다음 을 선택합니다.

    NYC 샘플 데이터 세트를 선택하는 방법을 보여 주는 스크린샷

  4. 미리 보기 화면에서 다음 을 다시 선택합니다.

  5. 데이터 대상의 경우 OneLake에 데이터를 델타 테이블로 저장할 레이크하우스의 이름을 선택합니다. 기존 레이크하우스를 선택하거나 새 레이크하우스를 만들 수 있습니다.

    대상 레이크하우스를 선택하는 방법을 보여 주는 스크린샷

  6. 출력을 저장할 위치를 선택합니다. 테이블을 루트 폴더로 선택하고 테이블 이름으로 'nycsample'을 입력합니다.

  7. 검토 + 저장 화면에서 즉시 데이터 전송 시작을 선택한 다음 저장 + 실행을 선택합니다.

    테이블 이름을 입력하는 방법을 보여 주는 스크린샷

  8. 작업이 완료되면 레이크하우스로 이동하여 /Tables 아래에 나열된 델타 테이블을 봅니다.

  9. Explorer 보기에서 테이블 이름을 마우스 오른쪽 단추로 클릭하고 속성을 선택하여 abfs 경로를 델타 테이블에 복사합니다.

  10. Azure Databricks Notebook을 엽니다. OneLake에서 델타 테이블을 읽습니다.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. 델타 테이블의 필드 값을 업데이트하여 OneLake의 델타 테이블의 데이터를 업데이트합니다.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;
    

요약

이 가이드에서는 파이프라인 환경을 사용하여 OneLake에 데이터를 수집하고 델타 테이블을 만들었습니다. 그런 다음 OneLake의 델타 테이블은 Azure Databricks를 통해 읽고 수정합니다.