练习 - 导入 Python 库和火箭发射数据
你现在有一个目标:在特定的天气条件下能否进行发射?你有一个数据集,其中包含以下日期的天气数据:
- 成功发射日
- 一次推迟发射日
- 每次发射日前后几天
现在,你可开始编写代码!
代码中的机器学习
你可使用各种工具和服务来解决机器学习问题。 这些太空主题的学习路径使用 Visual Studio Code、Python、scikit-learn 和 Azure。
观看此 Microsoft 视频,了解如何下载和配置与所需环境类似的环境。
在设置本地编程环境时,建议创建一个 Anaconda 环境,以确保你拥有该项目所需的全部内容。 可以使用你偏好的方法或工具集。 这些模块中的大多数都没有明确要求 Visual Studio Code 或 Azure。
设置本地环境
在继续操作之前,请确保你:
- 已安装 Visual Studio Code、Anaconda 和 Python。 (我们将在下面的步骤中创建我们的 Anaconda 环境)。
- 你创建的用于存储所有代码和数据的本地文件夹。
- 已下载并保存到你的本地文件夹中的包含我们数据的 Excel 文件。
- 已在该文件夹中保存一个空白 Jupyter 笔记本。 (在你的本地文件夹中,创建一个名为 yourfilename.ipynb 的虚拟文件)。
若要设置本地环境:
打开 Anaconda 提示。
在 Anaconda 提示中,使用 Pandas、NumPy、scikit-learn、PyDotPlus 和 Jupyter 创建一个新的 Anaconda 环境:
conda create -n myenv python=3.8 pandas numpy jupyter seaborn scikit-learn pydotplus
在 Anaconda 提示中,激活新环境:
conda activate myenv
在 Anaconda 提示中,安装 AzureML-SDK:
pip install --upgrade azureml-sdk
在某些情况下,安装可能需要几分钟才能完成。 请静待它解析。
在 Anaconda 提示中,安装 Excel 阅读器(请注意,xlrd 可能不适用于你下载的 Excel 数据文件):
pip install openpyxl
在 Visual Studio Code 中,打开你创建的本地文件夹以存储所有代码和数据。 选择右上方的 Jupyter 内核 Python 版本和左下方的 Python 解释器,并将它们都设置为使用 Anaconda 环境:
导入库
创建 Visual Studio Code 本地环境后,现可导入库。 这些库将帮助我们导入和清理天气数据,并创建和测试机器学习模型。
将以下代码复制到单元中,并运行它来导入库。
# Pandas library is used for handling tabular data
import pandas as pd
# NumPy is used for handling numerical series operations (addition, multiplication, and ...)
import numpy as np
# Sklearn library contains all the machine learning packages we need to digest and extract patterns from the data
from sklearn import linear_model, model_selection, metrics
from sklearn.model_selection import train_test_split
# Machine learning libraries used to build a decision tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
# Sklearn's preprocessing library is used for processing and cleaning the data
from sklearn import preprocessing
# for visualizing the tree
import pydotplus
from IPython.display import Image
将数据读入变量
现在我们已导入所有库,接下来可使用 Pandas 库来导入数据。 使用命令 pd.read_excel
读取数据并将其保存在变量中。 然后,使用 .head()
函数打印出数据的前五行,以确保我们已正确读取所有内容。
launch_data = pd.read_excel('RocketLaunchDataCompleted.xlsx')
launch_data.head()
开始浏览数据
最后,我们可使用 .columns
函数调用来查看数据中的所有列。 这会向我们显示数据具有的属性。 你将看到一些常见属性,例如过去计划发射的火箭的名称、计划发射日期、实际是否已发射等等。 请查看这些列,并试着推测哪些列对确定火箭是否将发射的影响最大。
launch_data.columns