샘플 데이터 세트

Azure Databricks에서 제공하고 Azure Databricks 작업 영역에서 사용할 수 있는 타사에서 제공하는 다양한 샘플 데이터 세트가 있습니다.

Unity 카탈로그 데이터 세트

Unity 카탈로그 는 카탈로그의 여러 샘플 데이터 세트에 samples 대한 액세스를 제공합니다. 카탈로그 탐색기 UI에서 이러한 데이터 세트를 검토하고 패턴을 사용하여 <catalog-name>.<schema-name>.<table-name> Notebook 또는 SQL 편집기에서 직접 참조할 수 있습니다.

nyctaxi 스키마(데이터베이스라고도 함)에는 뉴욕시의 택시 승차에 대한 세부 정보가 포함된 테이블trips이 포함되어 있습니다. 다음 문은 이 테이블의 처음 10가지 레코드를 반환합니다.

SELECT * FROM samples.nyctaxi.trips LIMIT 10

스키마에는 tpch TPC-H 벤치마크데이터가 포함됩니다. 이 스키마의 테이블을 나열하려면 다음을 실행합니다.

SHOW TABLES IN samples.tpch

Databricks 데이터 세트(databricks-datasets)

Azure Databricks에는 DBFS에 탑재된 다양한 샘플 데이터 세트가 포함되어 있습니다.

참고 항목

Databricks 데이터 세트의 가용성 및 위치는 예고 없이 변경될 수 있습니다.

Databricks 데이터 세트 찾아보기

Python, Scala 또는 R Notebook에서 이러한 파일을 찾아보려면 Databricks 유틸리티(dbutils) 참조를 사용할 수 있습니다. 다음 코드는 사용 가능한 모든 Databricks 데이터 세트를 나열합니다.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Databricks 데이터 세트에 대한 정보 가져오기

Databricks 데이터 세트에 대한 자세한 내용을 보려면 이 코드 예제와 같이 Python, R 또는 Scala Notebook을 사용하여 로컬 파일 API를 사용하여 데이터 세트 README (사용 가능한 경우)를 인쇄할 수 있습니다.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks 데이터 세트를 기반으로 테이블 만들기

이 코드 예제에서는 SQL 편집기에서 SQL을 사용하는 방법 또는 SQL, Python, Scala 또는 R Notebook을 사용하여 Databricks 데이터 세트를 기반으로 테이블을 만드는 방법을 보여 줍니다.

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV 형식의 타사 샘플 데이터 세트

Azure Databricks에는 타사 샘플 데이터 세트를 CSV(쉼표로 구분된 값) 파일로 Azure Databricks 작업 영역에 신속하게 업로드하는 기본 제공 도구가 있습니다. CSV 형식으로 제공되는 몇 가지 인기 있는 타사 샘플 데이터 세트:

샘플 데이터 세트 샘플 데이터 세트를 CSV 파일로 다운로드하려면 다음을 수행합니다.
Squirrel 인구 조사 데이터 웹 페이지에서 데이터 대기를 클릭합니다.
Squirrel 데이터 또는 스토리.
OWID 데이터 세트 컬렉션 GitHub 리포지토리에서 데이터 세트 폴더를 클릭합니다. 대상 데이터 세트가 포함된 하위 폴더를 클릭한 다음, 데이터 세트의 CSV 파일을 클릭합니다.
Data.gov CSV 데이터 세트 검색 결과 웹 페이지에서 대상 검색 결과를 클릭하고 CSV 아이콘 옆에 있는 다운로드를 클릭합니다.
다이아몬드(Kaggle 계정 필요) 데이터 세트 웹 페이지의 데이터 탭에 있는 데이터 탭에서 diamonds.csv 옆에 있는 다운로드 아이콘을 클릭합니다.
NYC Taxi Trip 기간(Kaggle 계정 필요) 데이터 세트 웹 페이지의 데이터 탭에서 sample_submission.zip 옆에 있는
다운로드 아이콘을 클릭합니다. 데이터 세트의 CSV 파일을 찾으려면 다운로드한 ZIP 파일의 내용을 추출합니다.
UFO 목격(data.world 계정 필요) 데이터 세트의 웹 페이지에서
nuforc_reports.csv 옆에 있는 다운로드 아이콘을 클릭합니다.

Azure Databricks 작업 영역에서 타사 샘플 데이터 세트를 사용하려면 다음을 수행합니다.

  1. 타사 지침에 따라 데이터 세트를 CSV 파일로 로컬 컴퓨터에 다운로드합니다.
  2. 로컬 컴퓨터에서 Azure Databricks 작업 영역으로 CSV 파일을 업로드합니다.
  3. 가져온 데이터를 사용하려면 Databricks SQL을 사용하여 데이터를 쿼리합니다. 또는 Notebook을 사용하여 데이터를 DataFrame으로 로드할 수 있습니다.

라이브러리 내의 타사 샘플 데이터 세트

일부 타사에는 PyPI(Python 패키지 인덱스) 패키지 또는 CRAN(포괄적인 R 보관 네트워크) 패키지와 같은 라이브러리의 샘플 데이터 세트가 포함됩니다. 자세한 내용은 라이브러리 공급자의 설명서를 참조하세요.

  • 클러스터 사용자 인터페이스를 사용하여 Azure Databricks 클러스터 에 라이브러리를 설치하려면 클러스터 라이브러리를 참조 하세요.
  • Azure Databricks Notebook을 사용하여 Python 라이브러리를 설치하려면 Notebook 범위 Python 라이브러리를 참조 하세요.
  • Azure Databricks Notebook을 사용하여 R 라이브러리를 설치하려면 Notebook 범위 R 라이브러리를 참조 하세요.