练习 - 创建 Azure Notebook 并导入数据

已完成

首要任务是创建新的 Azure Notebook。 Azure Notebook 包含在主要目标为分组相关笔记本的项目中。 在本单元中,你将创建一个新项目,然后在其中创建一个笔记本。

  1. 在浏览器中导航到 https://notebooks.azure.com

  2. 使用你的 Microsoft 帐户登录。

  3. 单击页面顶部菜单中的“我的项目”。

  4. 单击“我的项目”页顶部的“+ 新建项目”按钮。

  5. 创建名为“ML Notebooks”或具有类似名称的新项目。 你可根据需要取消选中“公开”框,但公开项目可让其中的笔记本能够通过链接、社交媒体或电子邮件与他人共享。 如果你不确定如何选择,稍后可轻松地将项目更改为“公开”或“专用”。

    Creating a project.

    创建项目

  6. 单击“+ 新建”,然后从菜单中选择“笔记本”,将笔记本添加到项目中。

    Adding a notebook to the project.

    将笔记本添加到项目中

  7. 为笔记本提供“On-Time Flight Arrivals.ipynb”等名称,并选择“Python 3.6”作为语言。 这将创建使用 Python 3.6 内核的用于执行 Python 代码的笔记本。 Azure Notebook 的优势之一是可以通过选择不同的内核来使用不同的语言。

    Creating a notebook.

    创建笔记本

    你可能不太了解:文件扩展名 .ipynb 代表“IPython 笔记本”。Jupyter 笔记本最初被称为 IPython(交互式 Python)笔记本,因为它们仅支持 Python 这一种编程语言。 Jupyter 这一名称是 Julia、Python 和 R 的组合,这三种语言都是 Jupyter 支持的核心编程语言。

  8. 单击笔记本,将其打开进行编辑。

    Opening the notebook.

    打开笔记本

使用 Azure Notebooks 时,可以创建其他项目和笔记本。 可以从头开始创建笔记本,也可以上传现有笔记本。

Jupyter Notebook 具有高度交互性,因为它们可以包含可执行代码,所以它们为操作数据和通过其构建预测模型提供了理想平台。

  1. 在笔记本的第一个单元格中输入以下命令:

    !curl https://topcs.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    提示

    curl 是 Bash 命令。 可以在 Jupyter 笔记本中通过为其添加感叹号前缀来执行 Bash 命令。 此命令从 Azure blob 存储下载 CSV 文件,并使用名称 flightdata.csv 来保存它。

  2. 单击“运行”按钮以执行 curl 命令。

    Importing a dataset.

    导入数据集

  3. 在笔记本的第二个单元格中,输入以下 Python 代码来加载 flightdata.csv,从中创建 Pandas DataFrame,并显示前五行。

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. 单击“运行”按钮以执行代码。 确认输出类似如下输出。

    Loading the dataset.

    加载数据集

    你创建的 DataFrame 包含美国一家主要航空公司的准点到达信息。 它拥有超过 11,000 行和 26 列。 (输出显示“5 行”是因为 DataFrame 的 head 函数只返回前五行。)每行代表一个航班,包含出发地、目的地、计划出发时间以及航班是准点到达还是晚点等信息。 我们将在本单元的稍后部分更深入地探讨相关数据。

  5. 使用“文件”->“保存和检查点”命令来保存笔记本。

使用水平滚动条向左和向右滚动,查看数据集中的所有列。 数据集包含多少列? 你能根据列名猜出每一列所代表的含义吗?