Cvičení – určení sloupců, které se mají zahrnout do modelu strojového učení

Dokončeno

Abychom mohli začít trénovat náš model strojového učení, začneme tím, že naučíme počítač, na které části dat se má dívat, aby mohl vytvářet předpovědi. Víme, že sloupec, který má model předpovědět, je sloupec Vypuštěno (Launched). Tento sloupec extrahujeme a uložíme do proměnné jako seznam Y a N.

Další čištění dat

Dále odebereme některé sloupce, které nejsou potřebné k provedení této předpovědi. Sloupce, jako je Název (Name), nám poskytují více kontextu o datech. Název startu ale neznamená, jestli počasí způsobí odložení startu. V tomto modulu se zaměříme na sloupce pro rychlost větru, povětrnostní podmínky a srážky.

Poznámka:

Obvykle nedoporučujeme proměnné nazývat jako x a y. Ale existují normy používané v datové vědě, jak znázorňovat vstupní a výstupní data. Toto použití vychází z matematických algoritmů. Možná si například pamatujete vzorce jako y=mx+b.

V souboru Jupyter Notebook (.ipynb ), který jste vytvořili v předchozím modulu, spusťte následující příkazy. Pokud uplynulo příliš mnoho času od doby, kdy jste prošli kroky v tomto modulu, může se zobrazit chyba. V takovém případě znovu naimportujte knihovny a data z předchozího modulu a spusťte příkazy:

# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']

# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)

# Saving the rest of the data as input data
X = launch_data

Nyní máte dvě proměnné. Výstup je v y a vstup je v X. Přehled vstupních dat si můžete prohlédnout ve sloupcích v nově vytvořené proměnné X:

# List of variables that our machine learning algorithm is going to look at:
X.columns

Vstupní data X představují počasí pro určitý den. V tomto případě nás nezajímá datum nebo čas. Chceme, aby profil počasí pro tento den označil, jestli se má spustit, nikoli datum nebo čas.