샘플 데이터 세트
Azure Databricks에서 제공하고 Azure Databricks 작업 영역에서 사용할 수 있는 타사에서 제공하는 다양한 샘플 데이터 세트가 있습니다.
Unity 카탈로그 데이터 세트
Unity 카탈로그 는 카탈로그의 여러 샘플 데이터 세트에 samples
대한 액세스를 제공합니다. 카탈로그 탐색기 UI에서 이러한 데이터 세트를 검토하고 패턴을 사용하여 <catalog-name>.<schema-name>.<table-name>
Notebook 또는 SQL 편집기에서 직접 참조할 수 있습니다.
nyctaxi
스키마(데이터베이스라고도 함)에는 뉴욕시의 택시 승차에 대한 세부 정보가 포함된 테이블trips
이 포함되어 있습니다. 다음 문은 이 테이블의 처음 10가지 레코드를 반환합니다.
SELECT * FROM samples.nyctaxi.trips LIMIT 10
스키마에는 tpch
TPC-H 벤치마크의 데이터가 포함됩니다. 이 스키마의 테이블을 나열하려면 다음을 실행합니다.
SHOW TABLES IN samples.tpch
Databricks 데이터 세트(databricks-datasets)
Azure Databricks에는 DBFS에 탑재된 다양한 샘플 데이터 세트가 포함되어 있습니다.
참고 항목
Databricks 데이터 세트의 가용성 및 위치는 예고 없이 변경될 수 있습니다.
Databricks 데이터 세트 찾아보기
Python, Scala 또는 R Notebook에서 이러한 파일을 찾아보려면 Databricks 유틸리티(dbutils) 참조를 사용할 수 있습니다. 다음 코드는 사용 가능한 모든 Databricks 데이터 세트를 나열합니다.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Databricks 데이터 세트에 대한 정보 가져오기
Databricks 데이터 세트에 대한 자세한 내용을 보려면 이 코드 예제와 같이 Python, R 또는 Scala Notebook을 사용하여 로컬 파일 API를 사용하여 데이터 세트 README
(사용 가능한 경우)를 인쇄할 수 있습니다.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Databricks 데이터 세트를 기반으로 테이블 만들기
이 코드 예제에서는 SQL 편집기에서 SQL을 사용하는 방법 또는 SQL, Python, Scala 또는 R Notebook을 사용하여 Databricks 데이터 세트를 기반으로 테이블을 만드는 방법을 보여 줍니다.
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
CSV 형식의 타사 샘플 데이터 세트
Azure Databricks에는 타사 샘플 데이터 세트를 CSV(쉼표로 구분된 값) 파일로 Azure Databricks 작업 영역에 신속하게 업로드하는 기본 제공 도구가 있습니다. CSV 형식으로 제공되는 몇 가지 인기 있는 타사 샘플 데이터 세트:
샘플 데이터 세트 | 샘플 데이터 세트를 CSV 파일로 다운로드하려면 다음을 수행합니다. |
---|---|
Squirrel 인구 조사 | 데이터 웹 페이지에서 데이터 대기를 클릭합니다. Squirrel 데이터 또는 스토리. |
OWID 데이터 세트 컬렉션 | GitHub 리포지토리에서 데이터 세트 폴더를 클릭합니다. 대상 데이터 세트가 포함된 하위 폴더를 클릭한 다음, 데이터 세트의 CSV 파일을 클릭합니다. |
Data.gov CSV 데이터 세트 | 검색 결과 웹 페이지에서 대상 검색 결과를 클릭하고 CSV 아이콘 옆에 있는 다운로드를 클릭합니다. |
다이아몬드(Kaggle 계정 필요) | 데이터 세트 웹 페이지의 데이터 탭에 있는 데이터 탭에서 diamonds.csv 옆에 있는 다운로드 아이콘을 클릭합니다. |
NYC Taxi Trip 기간(Kaggle 계정 필요) | 데이터 세트 웹 페이지의 데이터 탭에서 sample_submission.zip 옆에 있는 다운로드 아이콘을 클릭합니다. 데이터 세트의 CSV 파일을 찾으려면 다운로드한 ZIP 파일의 내용을 추출합니다. |
UFO 목격(data.world 계정 필요) | 데이터 세트의 웹 페이지에서 nuforc_reports.csv 옆에 있는 다운로드 아이콘을 클릭합니다. |
Azure Databricks 작업 영역에서 타사 샘플 데이터 세트를 사용하려면 다음을 수행합니다.
- 타사 지침에 따라 데이터 세트를 CSV 파일로 로컬 컴퓨터에 다운로드합니다.
- 로컬 컴퓨터에서 Azure Databricks 작업 영역으로 CSV 파일을 업로드합니다.
- 가져온 데이터를 사용하려면 Databricks SQL을 사용하여 데이터를 쿼리합니다. 또는 Notebook을 사용하여 데이터를 DataFrame으로 로드할 수 있습니다.
라이브러리 내의 타사 샘플 데이터 세트
일부 타사에는 PyPI(Python 패키지 인덱스) 패키지 또는 CRAN(포괄적인 R 보관 네트워크) 패키지와 같은 라이브러리 내의 샘플 데이터 세트가 포함됩니다. 자세한 내용은 라이브러리 공급자의 설명서를 참조하세요.