액세스 열기: 파이프라인을 사용하여 OneLake로 데이터 수집 및 Azure Databricks로 분석
중요
Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다.
이 가이드에서는 다음을 수행합니다.
- 작업 영역에서 파이프라인 만들기 및 델타 형식의 OneLake로 데이터 수집
- Azure Databricks를 사용하여 OneLake에서 델타 테이블 분석
사전 요구 사항
- 레이크하우스 항목이 있는 작업 영역입니다.
- 프리미엄 Azure Databricks 작업 영역. 프리미엄 Azure Databricks 작업 영역만 Microsoft Azure Active Directory 자격 증명 통과를 지원합니다. 클러스터를 만들 때 고급 옵션에서 Azure Data Lake Storage 자격 증명 통과를 사용하도록 설정합니다.
- 샘플 데이터 세트입니다.
단계
Power BI 서비스 레이크하우스로 이동하고 데이터 가져오기를 선택한 다음 새 데이터 파이프라인을 선택합니다.
새 파이프라인 프롬프트에서 새 파이프라인의 이름을 입력한 다음 만들기를 선택합니다.
이 연습에서는 NYC Taxi - 녹색 샘플 데이터를 데이터 원본으로 선택합니다. 샘플 데이터 세트를 선택한 후 다음 을 선택합니다.
미리 보기 화면에서 다음 을 다시 선택합니다.
데이터 대상의 경우 OneLake에 데이터를 델타 테이블로 저장할 레이크하우스의 이름을 선택합니다. 기존 레이크하우스를 선택하거나 새 레이크하우스를 만들 수 있습니다.
출력을 저장할 위치를 선택합니다. 테이블을 루트 폴더로 선택하고 테이블 이름으로 'nycsample'을 입력합니다.
검토 + 저장 화면에서 즉시 데이터 전송 시작을 선택한 다음 저장 + 실행을 선택합니다.
작업이 완료되면 레이크하우스로 이동하여 /Tables 아래에 나열된 델타 테이블을 봅니다.
Explorer 보기에서 테이블 이름을 마우스 오른쪽 단추로 클릭하고 속성을 선택하여 abfs 경로를 델타 테이블에 복사합니다.
Azure Databricks Notebook을 엽니다. OneLake에서 델타 테이블을 읽습니다.
olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" df=spark.read.format('delta').option("inferSchema","true").load(olsPath) df.show(5)
델타 테이블의 필드 값을 업데이트하여 OneLake의 델타 테이블의 데이터를 업데이트합니다.
%sql update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;
요약
이 가이드에서는 파이프라인 환경을 사용하여 OneLake에 데이터를 수집하고 델타 테이블을 만들었습니다. 그런 다음 OneLake의 델타 테이블은 Azure Databricks를 통해 읽고 수정합니다.