Jupyter Notebook 예제에서는 Open Datasets로 데이터를 보강하는 방법을 보여줍니다.
Azure Open Datasets에 대한 Jupyter Notebook 예제에서는 공개 데이터 세트를 로드하여 데모 데이터를 보강하는 방법을 설명합니다. 이 기술에는 Apache Spark 및 Pandas를 사용하여 데이터를 처리하는 것이 포함됩니다.
Important
Spark가 아닌 환경에서 작업할 때 Open Datasets는 대규모 데이터 세트에서 MemoryError 문제를 방지하기 위해 특정 클래스를 사용하여 한 번에 한 달 분량의 데이터만 다운로드할 수 있습니다.
NOAA ISD(Integrated Surface Database) 데이터 로드
Notebook | 설명 |
---|---|
최근 한 달의 날씨 데이터를 Pandas 데이터 프레임에 로드 | 자주 사용하는 Pandas 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다. |
최근 한 달의 날씨 데이터를 Spark 데이터 프레임에 로드 | 자주 사용하는 Spark 데이터 프레임에 과거의 날씨 데이터를 로드하는 방법을 알아봅니다. |
데모 데이터를 NOAA ISD 데이터와 조인
Notebook | 설명 |
---|---|
데모 데이터를 날씨 데이터와 조인 - Pandas | Pandas 데이터 프레임에서 1개월 분량의 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다. |
데모 데이터를 날씨 데이터와 조인 - Spark | Spark 데이터 프레임에서 센서 위치 데모 데이터 세트를 날씨 판독값과 조인합니다. |
NYC 택시 데이터를 NOAA ISD 데이터와 조인
Notebook | 설명 |
---|---|
택시 주행 데이터를 날씨 데이터로 보강 - Pandas | Pandas 데이터 프레임에서 1개월을 초과하는 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. 이 예제에서는 get_pandas_limit 메서드를 재정의하고 데이터 로드 성능과 데이터 양 사이의 균형을 적절하게 조정합니다. |
택시 주행 데이터를 날씨 데이터로 보강 - Spark | Spark 데이터 프레임에서 NYC 그린 택시 데이터를 로드한 후 날씨 데이터로 보강합니다. |