Cvičení – import knihoven Pythonu a dat o startu rakety

Dokončeno

Teď máte cíl: Je pravděpodobné, že start nastane za určitých povětrnostních podmínek? Máte datovou sadu, která obsahuje data o počasí z:

  • Několik úspěšných startů
  • Jeden den uvedení na trh
  • Dny vedoucí ke každému spuštění a po každém spuštění

Teď můžete začít psát kód.

Strojové učení v kódu

K řešení problémů strojového učení můžete použít různé nástroje a služby. Tyto studijní programy týkající se vesmíru používají Visual Studio Code, Python, Scikit-learn a Azure.

Podívejte se na toto video od Microsoftu, kde se dozvíte, jak stáhnout a nakonfigurovat prostředí podobné tomu, jaké budete potřebovat.

Při nastavování místního programovacího prostředí doporučujeme vytvořit prostředí Anaconda, které vám zajistí přesně to, co pro tento projekt potřebujete. Můžete použít upřednostňovanou metodu nebo sadu nástrojů. Většina těchto modulů explicitně nevyžaduje Visual Studio Code ani Azure.

Nastavení místního prostředí

Než budete pokračovat, ujistěte se, že máte:

  • Nainstalovali jste Visual Studio Code, Anaconda a Python . (V následujících krocích vytvoříme naše prostředí Anaconda).
  • Místní složka, kterou jste vytvořili pro uložení veškerého kódu a dat.
  • Excelové soubory s našimi daty se stáhly a uložily do vaší místní složky.
  • Prázdný poznámkový blok Jupyter uložený v této složce (V místní složce vytvořte fiktivní soubor s názvem název_souboru.ipynb).

Postup nastavení místního prostředí:

  1. Otevřete příkazový řádek Anaconda.

    Screenshot that shows the Anaconda prompt.

  2. V příkazovém řádku Anaconda vytvořte nové prostředí Anaconda s Pandas, NumPy, scikit-learn, PyDotPlus a Jupyter:

    conda create -n myenv python=3.8 pandas numpy jupyter seaborn scikit-learn pydotplus
    
  3. V příkazovém řádku Anaconda aktivujte nové prostředí Anaconda:

    conda activate myenv
    
  4. V příkazovém řádku Anaconda nainstalujte AzureML-SDK:

    pip install --upgrade azureml-sdk
    

    V některých případech může dokončení instalace trvat několik minut. Nechte ho vyřešit, dokud to neuslyšíte.

  5. V příkazovém řádku Anaconda nainstalujte excelovou čtečku (všimněte si, že xlrd nemusí fungovat s datovým souborem Excelu, který jste stáhli):

    pip install openpyxl
    
  6. V editoru Visual Studio Code otevřete místní složku, kterou jste vytvořili pro uložení veškerého kódu a dat. Vyberte verzi Pythonu s jádrem Jupyter v pravém horním rohu i interpret Pythonu v levém dolním rohu a nastavte je tak, aby používaly vaše prostředí Anaconda:

    Screenshot that shows Visual Studio Code with the Anaconda environment.

Import knihoven

S vytvořeným místním prostředím editoru Visual Studio Code teď můžete importovat knihovny. Knihovny nám pomáhají importovat a čistit data o počasí a vytvořit a otestovat model strojového učení.

Zkopírujte následující kód do buňky a spusťte ho, abyste naimportovali knihovny.

# Pandas library is used for handling tabular data
import pandas as pd

# NumPy is used for handling numerical series operations (addition, multiplication, and ...)

import numpy as np
# Sklearn library contains all the machine learning packages we need to digest and extract patterns from the data
from sklearn import linear_model, model_selection, metrics
from sklearn.model_selection import train_test_split

# Machine learning libraries used to build a decision tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

# Sklearn's preprocessing library is used for processing and cleaning the data 
from sklearn import preprocessing

# for visualizing the tree
import pydotplus
from IPython.display import Image 

Načtení dat do proměnné

Když teď máme všechny knihovny naimportované, můžeme použít knihovnu pandas a naimportovat data. K načtení dat a jejich uložení do proměnné použijte příkaz pd.read_excel. Pak pomocí .head() funkce vytiskněte prvních pět řádků dat, abychom měli jistotu, že jsme přečetli všechno správně.

launch_data = pd.read_excel('RocketLaunchDataCompleted.xlsx')
launch_data.head()

Zahájení zkoumání dat

Nakonec můžeme pomocí .columns volání funkce zobrazit všechny sloupce v datech. Tím se zobrazí atributy, které data mají. Zobrazí se některé běžné atributy, jako jsou názvy minulých raket, které byly naplánovány na start, data, která byla naplánována, jestli se skutečně spustily, a další. Podívejte se na tyto sloupce a zkuste odhadnout, které z nich budou mít největší vliv na určení, jestli raketa startuje.

launch_data.columns