다음을 통해 공유


Jupyter Notebook 예제에서는 Open Datasets로 데이터를 보강하는 방법을 보여줍니다.

Azure Open Datasets에 대한 Jupyter Notebook 예제에서는 공개 데이터 세트를 로드하여 데모 데이터를 보강하는 방법을 설명합니다. 이 기술에는 Apache Spark 및 Pandas를 사용하여 데이터를 처리하는 것이 포함됩니다.

Important

Spark가 아닌 환경에서 작업할 때 Open Datasets는 대규모 데이터 세트에서 MemoryError 문제를 방지하기 위해 특정 클래스를 사용하여 한 번에 한 달 분량의 데이터만 다운로드할 수 있습니다.

NOAA ISD(Integrated Surface Database) 데이터 로드

Notebook 설명
최근 한 달의 날씨 데이터를 Pandas 데이터 프레임에 로드 자주 사용하는 Pandas 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.
최근 한 달의 날씨 데이터를 Spark 데이터 프레임에 로드 자주 사용하는 Spark 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.

데모 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
데모 데이터를 날씨 데이터와 조인 - Pandas Pandas 데이터 프레임에서 1개월 분량의 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.
데모 데이터를 날씨 데이터와 조인 - Spark Spark 데이터 프레임에서 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.

NYC 택시 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
택시 주행 데이터를 날씨 데이터로 보강 - Pandas Pandas 데이터 프레임에서 1개월을 초과하는 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. 이 예제에서는 get_pandas_limit 메서드를 재정의하고 데이터 로드 성능과 데이터 양 사이의 균형을 적절하게 조정합니다.
택시 주행 데이터를 날씨 데이터로 보강 - Spark Spark 데이터 프레임에서 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다.

다음 단계