Jupyter Notebook 예제에서는 Open Datasets로 데이터를 보강하는 방법을 보여줍니다.
Azure Open Datasets에 대한 Jupyter Notebook 예제에서는 공개 데이터 세트를 로드하여 데모 데이터를 보강하는 방법을 보여줍니다. 데이터를 처리하기 위해 Spark 및 Pandas 기술이 사용됩니다.
Important
비 Spark 환경에서 작업하는 경우 Open Datasets는 대량의 데이터 세트와 관련된 MemoryError를 방지하기 위해 특정 클래스를 사용하여 한 번에 1개월 분량의 데이터만 다운로드할 수 있습니다.
NOAA ISD(Integrated Surface Database) 데이터 로드
Notebook | 설명 |
---|---|
최근 한 달의 날씨 데이터를 Pandas 데이터 프레임에 로드 | 자주 사용하는 Pandas 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다. |
최근 한 달의 날씨 데이터를 Spark 데이터 프레임에 로드 | 자주 사용하는 Spark 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다. |
데모 데이터를 NOAA ISD 데이터와 조인
Notebook | 설명 |
---|---|
데모 데이터를 날씨 데이터와 조인 - Pandas | Pandas 데이터 프레임에서 1개월 분량의 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다. |
데모 데이터를 날씨 데이터와 조인 - Spark | Spark 데이터 프레임에서 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다. |
NYC 택시 데이터를 NOAA ISD 데이터와 조인
Notebook | 설명 |
---|---|
택시 주행 데이터를 날씨 데이터로 보강 - Pandas | Pandas 데이터 프레임에서 1개월을 초과하는 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. 이 예제에서는 get_pandas_limit 메서드를 재정의하고 데이터 로드 성능과 데이터 양 사이의 균형을 적절하게 조정합니다. |
택시 주행 데이터를 날씨 데이터로 보강 - Spark | Spark 데이터 프레임에서 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. |