시작: Notebook에서 데이터 쿼리 및 시각화

이 시작 문서에서는 Azure Databricks Notebook을 사용하여 SQL, Python, Scala 및 R을 사용하여 Unity 카탈로그에 저장된 샘플 데이터를 쿼리한 다음 Notebook에서 쿼리 결과를 시각화하는 방법을 안내합니다.

요구 사항

이 문서의 작업을 완료하려면 다음 요구 사항을 충족해야 합니다.

  • 작업 영역에 Unity 카탈로그활성화되어 있어야 합니다. Unity 카탈로그를 시작하는 방법에 대한 자세한 내용은 Unity 카탈로그 설정 및 관리를 참조하세요.
  • 기존 컴퓨팅 리소스를 사용하거나 새 컴퓨팅 리소스를 만들 수 있는 권한이 있어야 합니다. 시작: 계정 및 작업 영역 설정을 참조하거나 Databricks 관리자를 참조하세요.

1단계: 새 전자 필기장 만들기

작업 영역에서 Notebook을 만들려면 다음을 수행합니다.

  1. 사이드바에서 새로 만들기새 아이콘를 클릭한 다음 전자 필기장을 클릭합니다.
  2. 전자 필기장 만들기 페이지에서 다음을 수행합니다.
    • Notebook에 고유한 이름을 지정합니다.
    • 전자 필기장에서 기본 언어를 설정한 다음 메시지가 표시되면 확인을 클릭합니다.
    • 커넥트 드롭다운 메뉴를 사용하여 컴퓨팅 리소스를 선택합니다. 새 컴퓨팅 리소스를 만들려면 컴퓨팅 사용을 참조 하세요.

Notebook 만들기 및 관리에 대한 자세한 내용은 Notebook 관리를 참조하세요.

2단계: 테이블 쿼리

선택한 언어를 samples.nyctaxi.trips 사용하여 Unity 카탈로그의 테이블을 쿼리합니다.

SQL

  1. 다음 코드를 복사하여 새 빈 Notebook 셀에 붙여넣습니다. 이 코드는 Unity 카탈로그에서 테이블을 쿼리한 samples.nyctaxi.trips 결과를 표시합니다.
SELECT * FROM samples.nyctaxi.trips

Python

  1. 다음 코드를 복사하여 새 빈 Notebook 셀에 붙여넣습니다. 이 코드는 Unity 카탈로그에서 테이블을 쿼리한 samples.nyctaxi.trips 결과를 표시합니다.
display(spark.read.table("samples.nyctaxi.trips"))

Scala

  1. 다음 코드를 복사하여 새 빈 Notebook 셀에 붙여넣습니다. 이 코드는 Unity 카탈로그에서 테이블을 쿼리한 samples.nyctaxi.trips 결과를 표시합니다.
display(spark.read.table("samples.nyctaxi.trips"))

R

  1. 다음 코드를 복사하여 새 빈 Notebook 셀에 붙여넣습니다. 이 코드는 Unity 카탈로그에서 테이블을 쿼리한 samples.nyctaxi.trips 결과를 표시합니다.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
  1. 키를 눌러 Shift+Enter 셀을 실행한 다음 다음 셀로 이동합니다.

    쿼리 결과가 Notebook에 표시됩니다.

3단계: 데이터 표시

여정 거리별 평균 요금 금액을 픽업 우편 번호로 그룹화하여 표시합니다.

  1. 테이블 탭 옆의 시각화를 클릭한 + 다음 클릭합니다.

    시각화 편집기가 표시됩니다.

  2. 시각화 유형 드롭다운에서 막대가 선택되어 있는지 확인합니다.

  3. X 열을 선택합니다fare_amount.

  4. Y 열을 선택합니다trip_distance.

  5. 집계 유형으로 선택합니다 Average .

  6. 열별로 그룹화로 선택합니다pickup_zip.

    가로 막대형 차트

  7. 저장을 클릭합니다.

다음 단계

  • Apache Spark를 사용하여 Databricks에 데이터를 로드하는 방법을 알아보려면 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조 하세요.
  • Databricks로 데이터를 수집하는 방법에 대한 자세한 내용은 Databricks 레이크하우스로 데이터 수집을 참조 하세요.
  • Databricks를 사용하여 데이터를 쿼리하는 방법에 대한 자세한 내용은 쿼리 데이터를 참조하세요.
  • 시각화에 대한 자세한 내용은 Databricks Notebook의 시각화를 참조 하세요.