你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
展示如何使用开放数据集来扩充数据的示例 Jupyter 笔记本
使用 Azure 开放数据集的示例 Jupyter 笔记本说明了如何加载开放数据集,并使用它们来扩充演示数据。 所涉及的技术包括使用 Apache Spark 和 Pandas 来处理数据。
重要
如果是在非 Spark 环境中,开放数据集仅允许一次下载某些类的一个月的数据,以避免较大数据集出现 MemoryError 问题。
加载 NOAA 集成地面数据库 (ISD) 数据
笔记本 | 说明 |
---|---|
将最近一个月的天气数据加载到 Pandas 数据帧 | 了解如何将历史天气数据加载到最常用的 Pandas 数据帧。 |
将最近一个月的天气数据加载到 Spark 数据帧 | 了解如何将历史天气数据加载到最常用的 Spark 数据帧。 |
联接演示数据和 NOAA ISD 数据
笔记本 | 说明 |
---|---|
联接演示数据和天气数据 - Pandas | 在 Pandas 数据帧中,将一个月的传感器位置演示数据集与天气读数联接。 |
联接演示数据和天气数据 - Spark | 在 Spark 数据帧中,联接传感器位置演示数据集与天气读数。 |
联接纽约出租车数据与 NOAA ISD 数据
笔记本 | 说明 |
---|---|
扩充了天气数据的出租车车程数据 - Pandas | 加载纽约绿色出租车数据(一个月内),并在 Pandas 数据帧中使用天气数据扩充它。 此示例重写方法 get_pandas_limit ,并平衡数据加载性能与数据量。 |
扩充了天气数据的出租车车程数据 - Spark | 加载纽约绿色出租车数据,并在 Spark 数据帧中使用天气数据扩充它。 |