Jupyter Notebook 예제에서는 Open Datasets로 데이터를 보강하는 방법을 보여줍니다.

Azure Open Datasets에 대한 Jupyter Notebook 예제에서는 공개 데이터 세트를 로드하여 데모 데이터를 보강하는 방법을 보여줍니다. 데이터를 처리하기 위해 Spark 및 Pandas 기술이 사용됩니다.

Important

비 Spark 환경에서 작업하는 경우 Open Datasets는 대량의 데이터 세트와 관련된 MemoryError를 방지하기 위해 특정 클래스를 사용하여 한 번에 1개월 분량의 데이터만 다운로드할 수 있습니다.

NOAA ISD(Integrated Surface Database) 데이터 로드

Notebook 설명
최근 한 달의 날씨 데이터를 Pandas 데이터 프레임에 로드 자주 사용하는 Pandas 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.
최근 한 달의 날씨 데이터를 Spark 데이터 프레임에 로드 자주 사용하는 Spark 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다.

데모 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
데모 데이터를 날씨 데이터와 조인 - Pandas Pandas 데이터 프레임에서 1개월 분량의 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.
데모 데이터를 날씨 데이터와 조인 - Spark Spark 데이터 프레임에서 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다.

NYC 택시 데이터를 NOAA ISD 데이터와 조인

Notebook 설명
택시 주행 데이터를 날씨 데이터로 보강 - Pandas Pandas 데이터 프레임에서 1개월을 초과하는 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. 이 예제에서는 get_pandas_limit 메서드를 재정의하고 데이터 로드 성능과 데이터 양 사이의 균형을 적절하게 조정합니다.
택시 주행 데이터를 날씨 데이터로 보강 - Spark Spark 데이터 프레임에서 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다.

다음 단계