다음을 통해 공유


Jupyter Notebook 예제에서는 Open Datasets로 데이터를 보강하는 방법을 보여줍니다.

Azure Open Datasets에 대한 Jupyter Notebook 예제에서는 공개 데이터 세트를 로드하여 데모 데이터를 보강하는 방법을 보여줍니다. 데이터를 처리하기 위해 Spark 및 Pandas 기술이 사용됩니다.

Important

비 Spark 환경에서 작업하는 경우 Open Datasets는 대량의 데이터 세트와 관련된 MemoryError를 방지하기 위해 특정 클래스를 사용하여 한 번에 1개월 분량의 데이터만 다운로드할 수 있습니다.

NOAA ISD(Integrated Surface Database) 데이터 로드

Notebook 설명
최근 한 달의 날씨 데이터를 Pandas 데이터 프레임에 로드 자주 사용하는 Pandas 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.
최근 한 달의 날씨 데이터를 Spark 데이터 프레임에 로드 자주 사용하는 Spark 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.

데모 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
데모 데이터를 날씨 데이터와 조인 - Pandas Pandas 데이터 프레임에서 1개월 분량의 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.
데모 데이터를 날씨 데이터와 조인 - Spark Spark 데이터 프레임에서 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.

NYC 택시 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
택시 주행 데이터를 날씨 데이터로 보강 - Pandas Pandas 데이터 프레임에서 1개월을 초과하는 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. 이 예제에서는 get_pandas_limit 메서드를 재정의하고 데이터 로드 성능과 데이터 양 사이의 균형을 적절하게 조정합니다.
택시 주행 데이터를 날씨 데이터로 보강 - Spark Spark 데이터 프레임에서 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다.

다음 단계