Vytvoření prvního experimentu datové vědy v nástroji Machine Learning Studio (classic)

PLATÍ PRO: Toto je zaškrtávací značka, což znamená, že tento článek se vztahuje na Machine Learning Studio (classic). Machine Learning Studio (classic) Toto je křížek, což znamená, že tento článek se nevztahuje na Azure Machine Learning. Azure Machine Learning

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning .

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Přečtěte si informace o přesunu projektů strojového učení ze sady ML Studio (classic) do služby Azure Machine Learning.
Další informace o službě Azure Machine Learning

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

V tomto článku vytvoříte experiment strojového učení v nástroji Machine Learning Studio (classic), který predikuje cenu auta na základě různých proměnných, jako jsou například make a technické specifikace.

Pokud s strojovém učení začínáte, je skvělým úvodem do strojového učení pomocí každodenního jazyka a konceptů série Datové vědy pro začátečníky .

Tento rychlý start se řídí výchozím pracovním postupem experimentu:

Vytvoření modelu
Trénování modelu
- Volba a použití algoritmu
Určení skóre a testování modelu
- Predikce cen nových automobilů

Získání dat

První věc, kterou potřebujete ve strojovém učení, jsou data. Součástí studia (Classic) je několik ukázkových datových sad, které můžete použít, nebo můžete importovat data z mnoha zdrojů. V tomto příkladu použijeme ukázkovou datovou sadu Automobile Price Data (Raw), která je součástí vašeho pracovního prostoru. Tato datová sada obsahuje záznamy řady různých automobilů, včetně informací o značce, modelu, technických specifikacích a ceně.

Návod

Pracovní kopii následujícího experimentu najdete v galerii Azure AI. Přejděte do svého prvního experimentu datové vědy – Predikce ceny automobilů a kliknutím na Otevřít v sadě Studio stáhněte kopii experimentu do pracovního prostoru Machine Learning Studio (Classic).

Tuto datovou sadu dostanete do svého experimentu takto.

Nový experiment vytvoříte kliknutím na +NOVÝ v dolní části okna Machine Learning Studia (Classic). Vyberte EXPERIMENT>Prázdný pokus.
Experimentu se přiřadí výchozí název, který se zobrazí v horní části plátna. Vyberte tento text a přejmenujte ho na něco smysluplného, například na predikci ceny automobilů. Název nemusí být jedinečný.
Nalevo od plátna experimentu je paleta datových sad a modulů. Do vyhledávacího pole v horní části této palety zadejte automobil a najděte datovou sadu s označením Automobile price data (Raw). Přetáhněte tuto datovou sadu na plátno experimentu.

Pokud chcete zjistit, jak tato data vypadají, klikněte na výstupní port v dolní části datové sady automobilů a pak vyberte Vizualizovat.

Klikněte na výstupní port a vyberte Vizualizovat.

Návod

Vstupní a výstupní porty datových sad a modulů jsou reprezentované malými kroužky – vstupní porty v horní části, výstupní porty v dolní části. Pokud chcete vytvořit tok dat prostřednictvím experimentu, připojte výstupní port jednoho modulu ke vstupnímu portu jiného. V libovolném okamžiku můžete kliknout na výstupní port datové sady nebo modulu a prohlédnout si, jak v tomto bodě vypadá tok dat.

V této datové sadě představuje každý řádek automobil a proměnné přidružené k jednotlivým automobilům se zobrazují jako sloupce. Cenu předpovíme ve sloupci úplně vpravo (sloupec 26 s názvem "price") pomocí proměnných pro konkrétní automobil.

Zobrazení dat automobilů v okně vizualizace dat

Zavřete okno vizualizace kliknutím na symbol x v pravém horním rohu.

Příprava dat

Před analýzou datové sady bývá zpravidla nutné sadu nějakým způsobem předzpracovat. Možná jste si ve sloupcích různých řádků všimli chybějících hodnot. Tyto chybějící hodnoty se musí vyčistit, aby model mohl data správně analyzovat. Odebereme všechny řádky s chybějícími hodnotami. Sloupec normalized-losses má také velký podíl chybějících hodnot, takže tento sloupec z modelu úplně vyloučíme.

Návod

Vyčištění chybějících hodnot ze vstupních dat je pro většinu modulů nutností.

Nejprve přidáme modul, který zcela odebere sloupec normalized-losses . Pak přidáme další modul, který odebere všechny řádky s chybějícími daty.

Do vyhledávacího pole v horní části palety modulu zadejte select columns a najděte modul Vybrat sloupce v datové sadě. Potom ho přetáhněte na plátno experimentu. Tento modul umožňuje vybrat, které sloupce dat chceme zahrnout do modelu, nebo je z modelu naopak vyloučit.
Připojte výstupní port datové sady Automobile price data (Raw) ke vstupnímu portu výběru sloupců v datové sadě.
Klikněte na modul Vybrat sloupce v datové sadě a v podokně Vlastnosti klikněte na spustit selektor sloupců.
- Na levé straně klikněte na Tlačítko S pravidly.
- V části Začít klikněte na Všechny sloupce. Tato pravidla směrují Vybrat sloupce v datové sadě k projití všemi sloupci (kromě těch, které se chystáme vyloučit).
- V rozevíracích nabídkách vyberte Vyloučit a názvy sloupců, a poté klikněte dovnitř textového pole. Zobrazí se seznam sloupců. Vyberte normalizované ztráty a ty se přidají do textového pole.
- Kliknutím na tlačítko zaškrtnutí (OK) zavřete selektor sloupců (vpravo dole).
  
  Teď podokno vlastností pro výběr sloupců v datové sadě označuje, že projde všemi sloupci z datové sady s výjimkou normalizovaných ztrát.
  
  Návod
  
  Kliknutím dvakrát na modul a zadáním textu je možné přidat k modulu komentář. To vám může pomoci rychle poznat, jaký je účel modulu v experimentu. V tomto případě poklikejte na modul Vybrat sloupce v datové sadě a zadejte komentář "Vyloučit normalizované ztráty".
Přetáhněte modul Vyčistit chybějící data na plátno experimentu a připojte ho k modulu Vybrat sloupce v datové sadě . V podokně Vlastnosti vyberte Odebrat celý řádek v Režimu čištění. Tyto možnosti nastaví Vyčištění chybějících dat k odstranění řádků s jakoukoliv chybějící hodnotou. Klikněte dvakrát na modul a zadejte komentář Odstranění řádků s chybějícími hodnotami.
Spusťte experiment kliknutím na SPUSTIT v dolní části stránky.

Až se spuštění experimentu dokončí, u všech modulů se zobrazí zelená značka zaškrtnutí, která označuje, že jejich činnost úspěšně skončila. Všimněte si také stavu Dokončeno provádění v pravém horním rohu.

Návod

Proč jsme experiment teď spustili? Spuštěním experimentu se definice sloupců pro naše data předávají z datové sady, prostřednictvím modulu Vybrat sloupce v datové sadě a modulem Vyčistit chybějící data . To znamená, že všechny moduly, které připojíme k vyčištění chybějících dat , budou mít také stejné informace.

Teď máme čistá data. Pokud chcete zobrazit vyčištěnou datovou sadu, klikněte na levý výstupní port modulu Vyčistit chybějící data a vyberte Vizualizovat. Všimněte si, že sloupec normalized-losses už není zahrnutý a chybí žádné hodnoty.

Nyní, když jsou data vyčištěna, jsme připraveni specifikovat, jaké funkce použijeme v prediktivním modelu.

Definování funkcí

Ve strojovém učení jsou funkce individuální měřitelné vlastnosti něčeho, co vás zajímá. V naší datové sadě každý řádek představuje jeden automobil a každý sloupec je příznak daného automobilu.

Nalezení správné sady příznaků pro vytvoření prediktivního modelu vyžaduje experimentování a znalost problému, který chcete vyřešit. Některé příznaky jsou pro predikci cíle vhodnější než jiné. Některé funkce mají silnou korelaci s jinými funkcemi a je možné je odebrat. Například příznaky city-mpg a highway-mpg jsou vzájemně těsně propojené, takže stačí jeden z nich odebrat a ponechat jenom ten druhý, aniž by to vytvářenou predikci výrazně ovlivnilo.

Vytvořme model, který používá podmnožinu příznaků naší datové sady. Později se můžete vrátit, vybrat různé funkce, spustit experiment znovu a zjistit, jestli dosáhnete lepších výsledků. Nejdřív ale vyzkoušíme tyto funkce:

značka, karosérie, rozvor kol, objem motoru, koňská síla, peak-rpm, spotřeba na dálnici, cena

Přetáhněte další modul Výběr sloupců v datové sadě na plátno experimentu. Připojte levý výstupní port modulu Vyčistit chybějící data ke vstupu modulu Vybrat sloupce v datové sadě .
Poklikejte na modul a zadejte "Výběr vlastností pro predikci."
V podokně Vlastnosti klikněte na tlačítko Spustit selektor sloupců.
Klikněte na Tlačítko S pravidly.
V části Začít klepněte na Žádné sloupce. Na řádku filtru vyberte Zahrnout, poté zvolte názvy sloupců a v textovém poli vyberte náš seznam názvů sloupců. Tento filtr směruje modul tak, aby neprošel žádnými sloupci (funkcemi), s výjimkou těch, které určíme.
Klikněte na tlačítko zaškrtnutí (OK).

Tento modul vytvoří filtrovanou datovou sadu obsahující pouze funkce, které chceme předat algoritmus učení, který použijeme v dalším kroku. Později se můžete vrátit a zkusit znovu s jiným výběrem funkcí.

Volba a použití algoritmu

Nyní když jsou data připravena, tvorba prediktivního modelu sestává z trénování a testování. Naše data použijeme pro trénování modelu. Potom model otestujeme a zjistíme, jak přesně dokáže předpovídat ceny.

Klasifikace a regrese jsou dva typy algoritmů strojového učení pod dohledem. Klasifikace předpovídá odpověď na základě definované sady kategorií, třeba barvy (červená, modrá nebo zelená). Regrese se používá k předpovědi čísel.

Chceme předpovědět cenu, což je číslo, a tak použijeme regresní algoritmus. V tomto příkladu použijeme model lineární regrese .

Model trénujeme tím, že mu poskytneme sadu dat, která zahrnují cenu. Model analyzuje data a hledá korelace mezi vlastnostmi automobilu a jeho cenou. Potom model otestujeme. Poskytneme mu sadu příznaků pro automobily, které známe, a uvidíme, do jaké míry se predikce modelu blíží známé ceně.

Naše data můžeme použít jak pro trénování modelu, tak pro jeho otestování. Dají se totiž rozdělit na samostatné sady pro trénování a testování.

Vyberte a přetáhněte modul Rozdělit data na plátno experimentu a připojte ho k poslednímu modulu Vybrat sloupce v datové sadě .
Kliknutím na modul Rozdělit data ho vyberte. Najděte zlomek řádků v první výstupní datové sadě (v podokně Vlastnosti napravo od plátna) a nastavte ho na 0,75. Takto použijeme 75 procent dat pro trénování modelu a 25 procent si ponecháme na testování.

Návod

Změnou parametru Náhodné jádro můžete vytvořit různé náhodné vzorky pro trénink a testování. Tento parametr určuje nastavení pseudonáhodného generátoru čísel.
Spusťte experiment. Po spuštění experimentu předávají moduly Select Columns in Dataset (Vybrat sloupce v datové sadě ) a Split Data (Rozdělit data ) definice sloupců do modulů, které přidáme dále.
Pokud chcete vybrat algoritmus učení, rozbalte kategorii Machine Learning na paletě modulů nalevo od plátna a pak rozbalte inicializovat model. Tímto se zobrazí několik kategorií modulů, které je možné použít k inicializaci algoritmů strojového učení. Pro tento experiment vyberte modul Lineární regrese v kategorii Regrese a přetáhněte ho na plátno experimentu. (Tento modul můžete najít i tak, že do pole Hledat palety zadáte lineární regrese.)
Najděte a přetáhněte modul Model tréninku na plátno experimentu. Připojte výstup modulu Lineární regrese k levému vstupu modulu Train Model a připojte výstup trénovacích dat (levý port) modulu Split Data k pravému vstupu modulu Train Model.
Klikněte na modul Trénovat model, v podokně Vlastnosti klikněte na Spustit selektor sloupců a pak vyberte sloupec cena. Cena je hodnota, kterou náš model bude predikovat.

Sloupec ceny v selektoru sloupce vyberete tak, že ho přesunete ze seznamu Dostupné sloupce do seznamu Vybrané sloupce .
Spusťte experiment.

Výsledkem je natrénovaný model, který je možné použít ke stanovení skóre pro nová data automobilů a k následné predikci cen.

Po spuštění by měl experiment vypadat přibližně takto:

Predikce cen nových automobilů

Nyní když jsme natrénovali model pomocí 75 procent dat, můžeme model použít ke stanovení skóre u zbylých 25 procent dat a zjistit, jak dobře model funguje.

Najděte a přetáhněte modul Score Model na plátno experimentu. Připojte výstup modulu Trénování modelu k levému vstupnímu portu modelu určení skóre. Připojte výstup testovacích dat (pravý port) modulu Rozdělit data ke správnému vstupnímu portu modelu určení skóre.
Spusťte experiment a zobrazte výstup z modulu Určení skóre modelu kliknutím na výstupní port modulu Určení skóre modelu a výběrem možnosti Vizualizovat. Na výstupu se zobrazí predikované hodnoty ceny a známé hodnoty v testovacích datech.
Nakonec otestujeme kvalitu výsledků. Vyberte a přetáhněte modul Vyhodnotit model na plátno experimentu a připojte výstup modulu Určení skóre modelu k levému vstupu vyhodnocení modelu. Konečný experiment by měl vypadat přibližně takto:
Spusťte experiment.

Pokud chcete zobrazit výstup z modulu Vyhodnotit model , klikněte na výstupní port a pak vyberte Vizualizovat.

Výsledky vyhodnocení experimentu

Pro náš model se zobrazí následující statistiky:

Střední absolutní chyba (MAE): Průměr absolutních chyb ( chyba je rozdíl mezi predikovanou a skutečnou hodnotou).
Kořen střední kvadratické chyby (RMSE): Odmocnina z průměru kvadratických chyb předpovědí provedených na testovací datové sadě.
Relativní absolutní chyba: Průměr absolutních chyb vzhledem k absolutnímu rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot.
Relativní kvadratická chyba: Průměr kvadratické chyby vzhledem k kvadratickému rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot.
Koeficient stanovení: Označuje se také jako hodnota R kvadvadla, což je statistická metrika označující, jak dobře model odpovídá datům.

Pro každou statistiku chyb platí, že menší hodnota je lepší. Menší hodnota označuje, že předpověď přesněji odpovídá skutečným hodnotám. U koeficientu stanovení je čím blíže jeho hodnota k jedné (1,0), tím lepší predikce.

Vyčištění prostředků

Pokud už prostředky vytvořené pomocí tohoto článku nepotřebujete, odstraňte je, abyste se vyhnuli poplatkům. Přečtěte si, jak v článku exportovat a odstranit uživatelská data v produktu.

Další kroky

V tomto rychlém startu jste vytvořili jednoduchý experiment pomocí ukázkové datové sady. Pokud chcete prozkoumat proces vytváření a nasazování modelu podrobněji, pokračujte kurzem prediktivního řešení.

Kurz: Vývoj prediktivního řešení v sadě Studio (classic)

Last updated on 2019-02-06

Sdílet prostřednictvím

Vytvoření prvního experimentu datové vědy v nástroji Machine Learning Studio (classic)

Získání dat

Příprava dat

Definování funkcí

Volba a použití algoritmu

Predikce cen nových automobilů

Vyčištění prostředků

Další kroky

Další materiály