샘플 데이터 세트
Azure Databricks에서 제공하고 Azure Databricks 작업 영역에서 사용할 수 있는 타사에서 제공하는 다양한 샘플 데이터 세트가 있습니다.
Unity 카탈로그 데이터 세트
Unity 카탈로그 는 카탈로그의 여러 샘플 데이터 세트에 samples
대한 액세스를 제공합니다. 카탈로그 탐색기 UI에서 이러한 데이터 세트를 검토하고 패턴을 사용하여 <catalog-name>.<schema-name>.<table-name>
Notebook 또는 SQL 편집기에서 직접 참조할 수 있습니다.
nyctaxi
스키마(데이터베이스라고도 함)에는 뉴욕시의 택시 승차에 대한 세부 정보가 포함된 테이블trips
이 포함되어 있습니다. 다음 문은 이 테이블의 처음 10가지 레코드를 반환합니다.
SELECT * FROM samples.nyctaxi.trips LIMIT 10
스키마에는 tpch
TPC-H 벤치마크의 데이터가 포함됩니다. 이 스키마의 테이블을 나열하려면 다음을 실행합니다.
SHOW TABLES IN samples.tpch
CSV 형식의 타사 샘플 데이터 세트
Azure Databricks에는 타사 샘플 데이터 세트를 CSV(쉼표로 구분된 값) 파일로 Azure Databricks 작업 영역에 신속하게 업로드하는 기본 제공 도구가 있습니다. CSV 형식으로 제공되는 몇 가지 인기 있는 타사 샘플 데이터 세트:
샘플 데이터 세트 | 샘플 데이터 세트를 CSV 파일로 다운로드하려면 다음을 수행합니다. |
---|---|
Squirrel 인구 조사 | 데이터 웹 페이지에서 데이터 대기를 클릭합니다. Squirrel 데이터 또는 스토리. |
OWID 데이터 세트 컬렉션 | GitHub 리포지토리에서 데이터 세트 폴더를 클릭합니다. 대상 데이터 세트가 포함된 하위 폴더를 클릭한 다음, 데이터 세트의 CSV 파일을 클릭합니다. |
Data.gov CSV 데이터 세트 | 검색 결과 웹 페이지에서 대상 검색 결과를 클릭하고 CSV 아이콘 옆에 있는 다운로드를 클릭합니다. |
다이아몬드(Kaggle 계정 필요) | 데이터 세트 웹 페이지의 데이터 탭에 있는 데이터 탭에서 diamonds.csv 옆에 있는 다운로드 아이콘을 클릭합니다. |
NYC Taxi Trip 기간(Kaggle 계정 필요) | 데이터 세트 웹 페이지의 데이터 탭에서 sample_submission.zip 옆에 있는 다운로드 아이콘을 클릭합니다. 데이터 세트의 CSV 파일을 찾으려면 다운로드한 ZIP 파일의 내용을 추출합니다. |
Azure Databricks 작업 영역에서 타사 샘플 데이터 세트를 사용하려면 다음을 수행합니다.
- 타사 지침에 따라 데이터 세트를 CSV 파일로 로컬 컴퓨터에 다운로드합니다.
- 로컬 컴퓨터에서 Azure Databricks 작업 영역으로 CSV 파일을 업로드합니다.
- 가져온 데이터를 사용하려면 Databricks SQL을 사용하여 데이터를 쿼리합니다. 또는 Notebook을 사용하여 데이터를 DataFrame으로 로드할 수 있습니다.
라이브러리 내의 타사 샘플 데이터 세트
일부 타사에는 PyPI(Python 패키지 인덱스) 패키지 또는 CRAN(포괄적인 R 보관 네트워크) 패키지와 같은 라이브러리 내의 샘플 데이터 세트가 포함됩니다. 자세한 내용은 라이브러리 공급자의 설명서를 참조하세요.
- 클러스터 사용자 인터페이스를 사용하여 Azure Databricks 클러스터 에 라이브러리를 설치하려면 클러스터 라이브러리를 참조 하세요.
- Azure Databricks Notebook을 사용하여 Python 라이브러리를 설치하려면 Notebook 범위 Python 라이브러리를 참조 하세요.
- Azure Databricks Notebook을 사용하여 R 라이브러리를 설치하려면 Notebook 범위 R 라이브러리를 참조 하세요.
DBFS에 탑재된 Databricks 데이터 세트(databricks-datasets)
Azure Databricks는 Unity 카탈로그 지원 Databricks 작업 영역에서 대부분의 사용 사례에 DBFS 및 탑재된 클라우드 개체 스토리지를 사용하지 않도록 권장합니다. DBFS에 탑재된 일부 샘플 데이터 세트는 Azure Databricks에서 사용할 수 있습니다.
참고 항목
Databricks 데이터 세트의 가용성 및 위치는 예고 없이 변경될 수 있습니다.
DBFS 탑재 Databricks 데이터 세트 찾아보기
Python, Scala 또는 R Notebook에서 이러한 파일을 찾아보려면 Databricks 유틸리티(dbutils) 참조를 사용할 수 있습니다. 다음 코드는 사용 가능한 모든 Databricks 데이터 세트를 나열합니다.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"