Примеры записных книжек Jupyter демонстрируют, как обогащать данные с помощью открытых наборов данных
В примере записных книжек Jupyter для Открытых наборов данных Azure объясняется, как загружать открытые наборы данных и использовать их для обогащения демонстрационных данных. Эти методы включают использование Apache Spark и Pandas для обработки данных.
Внимание
При работе в среде, отличной от Spark, открытые наборы данных позволяют загружать только один месяц данных одновременно с определенными классами, чтобы избежать проблем MemoryError с большими наборами данных.
Загрузка данных из базы данных Integrated Surface Database (ISD) Национального управления океанических и атмосферных исследований США (NOAA)
Записная книжка | Description |
---|---|
Загрузка метеоданных за один последний месяц в кадр данных Pandas | Узнайте, как загрузить хронологические метеоданные в предпочитаемый кадр данных Pandas. |
Загрузка одного последнего месяца метеоданных в кадр данных Spark | Узнайте, как загрузить исторические метеоданные в предпочитаемый кадр данных Spark. |
Объединение демонстрационных данных с данными ISD NOAA
Записная книжка | Description |
---|---|
Объединение демонстрационных данных с метеоданными — Pandas | Присоединяйтесь к демонстрационной версии набора данных датчиков с показаниями погоды в кадре данных Pandas. |
Объединение демонстрационных данных с метеоданными — Spark | Объедините демонстрационный набор данных о положениях датчиков с метеоданными в кадре данных Spark. |
Объединение данных о такси Нью-Йорка с данными ISD NOAA
Записная книжка | Description |
---|---|
Данные о поездках в такси, обогащенные метеоданными — Pandas | Загрузите данные о зеленом такси Нью-Йорка (более одного месяца) и обогатите его данными о погоде в кадре данных Pandas. Этот пример переопределяет метод get_pandas_limit и выполняет балансировку производительности нагрузки с учетом объема данных. |
Данные о поездках в такси, обогащенные метеоданными — Spark | Загрузите данные о зеленом такси Нью-Йорка и обогатите его данными о погоде в кадре данных Spark. |