练习 - 导入 Python 库和火箭发射数据

已完成

你现在有一个目标:在特定的天气条件下能否进行发射?你有一个数据集,其中包含以下日期的天气数据:

  • 成功发射日
  • 一次推迟发射日
  • 每次发射日前后几天

现在,你可开始编写代码!

代码中的机器学习

你可使用各种工具和服务来解决机器学习问题。 这些太空主题的学习路径使用 Visual Studio Code、Python、scikit-learn 和 Azure。

观看此 Microsoft 视频,了解如何下载和配置与所需环境类似的环境。

在设置本地编程环境时,建议创建一个 Anaconda 环境,以确保你拥有该项目所需的全部内容。 可以使用你偏好的方法或工具集。 这些模块中的大多数都没有明确要求 Visual Studio Code 或 Azure。

设置本地环境

在继续操作之前,请确保你:

  • 已安装 Visual Studio CodeAnacondaPython。 (我们将在下面的步骤中创建我们的 Anaconda 环境)。
  • 你创建的用于存储所有代码和数据的本地文件夹。
  • 已下载并保存到你的本地文件夹中的包含我们数据的 Excel 文件
  • 已在该文件夹中保存一个空白 Jupyter 笔记本。 (在你的本地文件夹中,创建一个名为 yourfilename.ipynb 的虚拟文件)。

若要设置本地环境:

  1. 打开 Anaconda 提示。

    Screenshot that shows the Anaconda prompt.

  2. 在 Anaconda 提示中,使用 Pandas、NumPy、scikit-learn、PyDotPlus 和 Jupyter 创建一个新的 Anaconda 环境:

    conda create -n myenv python=3.8 pandas numpy jupyter seaborn scikit-learn pydotplus
    
  3. 在 Anaconda 提示中,激活新环境:

    conda activate myenv
    
  4. 在 Anaconda 提示中,安装 AzureML-SDK:

    pip install --upgrade azureml-sdk
    

    在某些情况下,安装可能需要几分钟才能完成。 请静待它解析。

  5. 在 Anaconda 提示中,安装 Excel 阅读器(请注意,xlrd 可能不适用于你下载的 Excel 数据文件):

    pip install openpyxl
    
  6. 在 Visual Studio Code 中,打开你创建的本地文件夹以存储所有代码和数据。 选择右上方的 Jupyter 内核 Python 版本和左下方的 Python 解释器,并将它们都设置为使用 Anaconda 环境:

    Screenshot that shows Visual Studio Code with the Anaconda environment.

导入库

创建 Visual Studio Code 本地环境后,现可导入库。 这些库将帮助我们导入和清理天气数据,并创建和测试机器学习模型。

将以下代码复制到单元中,并运行它来导入库。

# Pandas library is used for handling tabular data
import pandas as pd

# NumPy is used for handling numerical series operations (addition, multiplication, and ...)

import numpy as np
# Sklearn library contains all the machine learning packages we need to digest and extract patterns from the data
from sklearn import linear_model, model_selection, metrics
from sklearn.model_selection import train_test_split

# Machine learning libraries used to build a decision tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

# Sklearn's preprocessing library is used for processing and cleaning the data 
from sklearn import preprocessing

# for visualizing the tree
import pydotplus
from IPython.display import Image 

将数据读入变量

现在我们已导入所有库,接下来可使用 Pandas 库来导入数据。 使用命令 pd.read_excel 读取数据并将其保存在变量中。 然后,使用 .head() 函数打印出数据的前五行,以确保我们已正确读取所有内容。

launch_data = pd.read_excel('RocketLaunchDataCompleted.xlsx')
launch_data.head()

开始浏览数据

最后,我们可使用 .columns 函数调用来查看数据中的所有列。 这会向我们显示数据具有的属性。 你将看到一些常见属性,例如过去计划发射的火箭的名称、计划发射日期、实际是否已发射等等。 请查看这些列,并试着推测哪些列对确定火箭是否将发射的影响最大。

launch_data.columns