你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

展示如何使用开放数据集来扩充数据的示例 Jupyter 笔记本

使用 Azure 开放数据集的示例 Jupyter 笔记本说明了如何加载开放数据集,并使用它们来扩充演示数据。 所涉及的技术包括使用 Apache Spark 和 Pandas 来处理数据。

重要

如果是在非 Spark 环境中,开放数据集仅允许一次下载某些类的一个月的数据,以避免较大数据集出现 MemoryError 问题。

加载 NOAA 集成地面数据库 (ISD) 数据

笔记本 说明
将最近一个月的天气数据加载到 Pandas 数据帧 了解如何将历史天气数据加载到最常用的 Pandas 数据帧。
将最近一个月的天气数据加载到 Spark 数据帧 了解如何将历史天气数据加载到最常用的 Spark 数据帧。

联接演示数据和 NOAA ISD 数据

笔记本 说明
联接演示数据和天气数据 - Pandas 在 Pandas 数据帧中,将一个月的传感器位置演示数据集与天气读数联接。
联接演示数据和天气数据 - Spark 在 Spark 数据帧中,联接传感器位置演示数据集与天气读数。

联接纽约出租车数据与 NOAA ISD 数据

笔记本 说明
扩充了天气数据的出租车车程数据 - Pandas 加载纽约绿色出租车数据(一个月内),并在 Pandas 数据帧中使用天气数据扩充它。 此示例重写方法 get_pandas_limit,并平衡数据加载性能与数据量。
扩充了天气数据的出租车车程数据 - Spark 加载纽约绿色出租车数据,并在 Spark 数据帧中使用天气数据扩充它。

后续步骤