Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO:
Machine Learning Studio (classic)
Azure Machine Learning
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning .
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Přečtěte si informace o přesunu projektů strojového učení ze sady ML Studio (classic) do služby Azure Machine Learning.
- Další informace o službě Azure Machine Learning
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
V tomto článku vytvoříte experiment strojového učení v nástroji Machine Learning Studio (classic), který predikuje cenu auta na základě různých proměnných, jako jsou například make a technické specifikace.
Pokud s strojovém učení začínáte, je skvělým úvodem do strojového učení pomocí každodenního jazyka a konceptů série Datové vědy pro začátečníky .
Tento rychlý start se řídí výchozím pracovním postupem experimentu:
- Vytvoření modelu
- Trénování modelu
- Určení skóre a testování modelu
Získání dat
První věc, kterou potřebujete ve strojovém učení, jsou data. Součástí studia (Classic) je několik ukázkových datových sad, které můžete použít, nebo můžete importovat data z mnoha zdrojů. V tomto příkladu použijeme ukázkovou datovou sadu Automobile Price Data (Raw), která je součástí vašeho pracovního prostoru. Tato datová sada obsahuje záznamy řady různých automobilů, včetně informací o značce, modelu, technických specifikacích a ceně.
Návod
Pracovní kopii následujícího experimentu najdete v galerii Azure AI. Přejděte do svého prvního experimentu datové vědy – Predikce ceny automobilů a kliknutím na Otevřít v sadě Studio stáhněte kopii experimentu do pracovního prostoru Machine Learning Studio (Classic).
Tuto datovou sadu dostanete do svého experimentu takto.
Nový experiment vytvoříte kliknutím na +NOVÝ v dolní části okna Machine Learning Studia (Classic). Vyberte EXPERIMENT>Prázdný pokus.
Experimentu se přiřadí výchozí název, který se zobrazí v horní části plátna. Vyberte tento text a přejmenujte ho na něco smysluplného, například na predikci ceny automobilů. Název nemusí být jedinečný.
Nalevo od plátna experimentu je paleta datových sad a modulů. Do vyhledávacího pole v horní části této palety zadejte automobil a najděte datovou sadu s označením Automobile price data (Raw). Přetáhněte tuto datovou sadu na plátno experimentu.
Pokud chcete zjistit, jak tato data vypadají, klikněte na výstupní port v dolní části datové sady automobilů a pak vyberte Vizualizovat.
Návod
Vstupní a výstupní porty datových sad a modulů jsou reprezentované malými kroužky – vstupní porty v horní části, výstupní porty v dolní části. Pokud chcete vytvořit tok dat prostřednictvím experimentu, připojte výstupní port jednoho modulu ke vstupnímu portu jiného. V libovolném okamžiku můžete kliknout na výstupní port datové sady nebo modulu a prohlédnout si, jak v tomto bodě vypadá tok dat.
V této datové sadě představuje každý řádek automobil a proměnné přidružené k jednotlivým automobilům se zobrazují jako sloupce. Cenu předpovíme ve sloupci úplně vpravo (sloupec 26 s názvem "price") pomocí proměnných pro konkrétní automobil.
Zavřete okno vizualizace kliknutím na symbol x v pravém horním rohu.
Příprava dat
Před analýzou datové sady bývá zpravidla nutné sadu nějakým způsobem předzpracovat. Možná jste si ve sloupcích různých řádků všimli chybějících hodnot. Tyto chybějící hodnoty se musí vyčistit, aby model mohl data správně analyzovat. Odebereme všechny řádky s chybějícími hodnotami. Sloupec normalized-losses má také velký podíl chybějících hodnot, takže tento sloupec z modelu úplně vyloučíme.
Návod
Vyčištění chybějících hodnot ze vstupních dat je pro většinu modulů nutností.
Nejprve přidáme modul, který zcela odebere sloupec normalized-losses . Pak přidáme další modul, který odebere všechny řádky s chybějícími daty.
Do vyhledávacího pole v horní části palety modulu zadejte select columns a najděte modul Vybrat sloupce v datové sadě. Potom ho přetáhněte na plátno experimentu. Tento modul umožňuje vybrat, které sloupce dat chceme zahrnout do modelu, nebo je z modelu naopak vyloučit.
Připojte výstupní port datové sady Automobile price data (Raw) ke vstupnímu portu výběru sloupců v datové sadě.
Klikněte na modul Vybrat sloupce v datové sadě a v podokně Vlastnosti klikněte na spustit selektor sloupců.
Na levé straně klikněte na Tlačítko S pravidly.
V části Začít klikněte na Všechny sloupce. Tato pravidla směrují Vybrat sloupce v datové sadě k projití všemi sloupci (kromě těch, které se chystáme vyloučit).
V rozevíracích nabídkách vyberte Vyloučit a názvy sloupců, a poté klikněte dovnitř textového pole. Zobrazí se seznam sloupců. Vyberte normalizované ztráty a ty se přidají do textového pole.
Kliknutím na tlačítko zaškrtnutí (OK) zavřete selektor sloupců (vpravo dole).
Teď podokno vlastností pro výběr sloupců v datové sadě označuje, že projde všemi sloupci z datové sady s výjimkou normalizovaných ztrát.
Návod
Kliknutím dvakrát na modul a zadáním textu je možné přidat k modulu komentář. To vám může pomoci rychle poznat, jaký je účel modulu v experimentu. V tomto případě poklikejte na modul Vybrat sloupce v datové sadě a zadejte komentář "Vyloučit normalizované ztráty".
Přetáhněte modul Vyčistit chybějící data na plátno experimentu a připojte ho k modulu Vybrat sloupce v datové sadě . V podokně Vlastnosti vyberte Odebrat celý řádek v Režimu čištění. Tyto možnosti nastaví Vyčištění chybějících dat k odstranění řádků s jakoukoliv chybějící hodnotou. Klikněte dvakrát na modul a zadejte komentář Odstranění řádků s chybějícími hodnotami.
Spusťte experiment kliknutím na SPUSTIT v dolní části stránky.
Až se spuštění experimentu dokončí, u všech modulů se zobrazí zelená značka zaškrtnutí, která označuje, že jejich činnost úspěšně skončila. Všimněte si také stavu Dokončeno provádění v pravém horním rohu.
Návod
Proč jsme experiment teď spustili? Spuštěním experimentu se definice sloupců pro naše data předávají z datové sady, prostřednictvím modulu Vybrat sloupce v datové sadě a modulem Vyčistit chybějící data . To znamená, že všechny moduly, které připojíme k vyčištění chybějících dat , budou mít také stejné informace.
Teď máme čistá data. Pokud chcete zobrazit vyčištěnou datovou sadu, klikněte na levý výstupní port modulu Vyčistit chybějící data a vyberte Vizualizovat. Všimněte si, že sloupec normalized-losses už není zahrnutý a chybí žádné hodnoty.
Nyní, když jsou data vyčištěna, jsme připraveni specifikovat, jaké funkce použijeme v prediktivním modelu.
Definování funkcí
Ve strojovém učení jsou funkce individuální měřitelné vlastnosti něčeho, co vás zajímá. V naší datové sadě každý řádek představuje jeden automobil a každý sloupec je příznak daného automobilu.
Nalezení správné sady příznaků pro vytvoření prediktivního modelu vyžaduje experimentování a znalost problému, který chcete vyřešit. Některé příznaky jsou pro predikci cíle vhodnější než jiné. Některé funkce mají silnou korelaci s jinými funkcemi a je možné je odebrat. Například příznaky city-mpg a highway-mpg jsou vzájemně těsně propojené, takže stačí jeden z nich odebrat a ponechat jenom ten druhý, aniž by to vytvářenou predikci výrazně ovlivnilo.
Vytvořme model, který používá podmnožinu příznaků naší datové sady. Později se můžete vrátit, vybrat různé funkce, spustit experiment znovu a zjistit, jestli dosáhnete lepších výsledků. Nejdřív ale vyzkoušíme tyto funkce:
značka, karosérie, rozvor kol, objem motoru, koňská síla, peak-rpm, spotřeba na dálnici, cena
Přetáhněte další modul Výběr sloupců v datové sadě na plátno experimentu. Připojte levý výstupní port modulu Vyčistit chybějící data ke vstupu modulu Vybrat sloupce v datové sadě .
Poklikejte na modul a zadejte "Výběr vlastností pro predikci."
V podokně Vlastnosti klikněte na tlačítko Spustit selektor sloupců.
Klikněte na Tlačítko S pravidly.
V části Začít klepněte na Žádné sloupce. Na řádku filtru vyberte Zahrnout, poté zvolte názvy sloupců a v textovém poli vyberte náš seznam názvů sloupců. Tento filtr směruje modul tak, aby neprošel žádnými sloupci (funkcemi), s výjimkou těch, které určíme.
Klikněte na tlačítko zaškrtnutí (OK).
Tento modul vytvoří filtrovanou datovou sadu obsahující pouze funkce, které chceme předat algoritmus učení, který použijeme v dalším kroku. Později se můžete vrátit a zkusit znovu s jiným výběrem funkcí.
Volba a použití algoritmu
Nyní když jsou data připravena, tvorba prediktivního modelu sestává z trénování a testování. Naše data použijeme pro trénování modelu. Potom model otestujeme a zjistíme, jak přesně dokáže předpovídat ceny.
Klasifikace a regrese jsou dva typy algoritmů strojového učení pod dohledem. Klasifikace předpovídá odpověď na základě definované sady kategorií, třeba barvy (červená, modrá nebo zelená). Regrese se používá k předpovědi čísel.
Chceme předpovědět cenu, což je číslo, a tak použijeme regresní algoritmus. V tomto příkladu použijeme model lineární regrese .
Model trénujeme tím, že mu poskytneme sadu dat, která zahrnují cenu. Model analyzuje data a hledá korelace mezi vlastnostmi automobilu a jeho cenou. Potom model otestujeme. Poskytneme mu sadu příznaků pro automobily, které známe, a uvidíme, do jaké míry se predikce modelu blíží známé ceně.
Naše data můžeme použít jak pro trénování modelu, tak pro jeho otestování. Dají se totiž rozdělit na samostatné sady pro trénování a testování.
Vyberte a přetáhněte modul Rozdělit data na plátno experimentu a připojte ho k poslednímu modulu Vybrat sloupce v datové sadě .
Kliknutím na modul Rozdělit data ho vyberte. Najděte zlomek řádků v první výstupní datové sadě (v podokně Vlastnosti napravo od plátna) a nastavte ho na 0,75. Takto použijeme 75 procent dat pro trénování modelu a 25 procent si ponecháme na testování.
Návod
Změnou parametru Náhodné jádro můžete vytvořit různé náhodné vzorky pro trénink a testování. Tento parametr určuje nastavení pseudonáhodného generátoru čísel.
Spusťte experiment. Po spuštění experimentu předávají moduly Select Columns in Dataset (Vybrat sloupce v datové sadě ) a Split Data (Rozdělit data ) definice sloupců do modulů, které přidáme dále.
Pokud chcete vybrat algoritmus učení, rozbalte kategorii Machine Learning na paletě modulů nalevo od plátna a pak rozbalte inicializovat model. Tímto se zobrazí několik kategorií modulů, které je možné použít k inicializaci algoritmů strojového učení. Pro tento experiment vyberte modul Lineární regrese v kategorii Regrese a přetáhněte ho na plátno experimentu. (Tento modul můžete najít i tak, že do pole Hledat palety zadáte lineární regrese.)
Najděte a přetáhněte modul Model tréninku na plátno experimentu. Připojte výstup modulu Lineární regrese k levému vstupu modulu Train Model a připojte výstup trénovacích dat (levý port) modulu Split Data k pravému vstupu modulu Train Model.
Klikněte na modul Trénovat model, v podokně Vlastnosti klikněte na Spustit selektor sloupců a pak vyberte sloupec cena. Cena je hodnota, kterou náš model bude predikovat.
Sloupec ceny v selektoru sloupce vyberete tak, že ho přesunete ze seznamu Dostupné sloupce do seznamu Vybrané sloupce .
Spusťte experiment.
Výsledkem je natrénovaný model, který je možné použít ke stanovení skóre pro nová data automobilů a k následné predikci cen.
Predikce cen nových automobilů
Nyní když jsme natrénovali model pomocí 75 procent dat, můžeme model použít ke stanovení skóre u zbylých 25 procent dat a zjistit, jak dobře model funguje.
Najděte a přetáhněte modul Score Model na plátno experimentu. Připojte výstup modulu Trénování modelu k levému vstupnímu portu modelu určení skóre. Připojte výstup testovacích dat (pravý port) modulu Rozdělit data ke správnému vstupnímu portu modelu určení skóre.
Spusťte experiment a zobrazte výstup z modulu Určení skóre modelu kliknutím na výstupní port modulu Určení skóre modelu a výběrem možnosti Vizualizovat. Na výstupu se zobrazí predikované hodnoty ceny a známé hodnoty v testovacích datech.
Nakonec otestujeme kvalitu výsledků. Vyberte a přetáhněte modul Vyhodnotit model na plátno experimentu a připojte výstup modulu Určení skóre modelu k levému vstupu vyhodnocení modelu. Konečný experiment by měl vypadat přibližně takto:
Spusťte experiment.
Pokud chcete zobrazit výstup z modulu Vyhodnotit model , klikněte na výstupní port a pak vyberte Vizualizovat.
Pro náš model se zobrazí následující statistiky:
- Střední absolutní chyba (MAE): Průměr absolutních chyb ( chyba je rozdíl mezi predikovanou a skutečnou hodnotou).
- Kořen střední kvadratické chyby (RMSE): Odmocnina z průměru kvadratických chyb předpovědí provedených na testovací datové sadě.
- Relativní absolutní chyba: Průměr absolutních chyb vzhledem k absolutnímu rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot.
- Relativní kvadratická chyba: Průměr kvadratické chyby vzhledem k kvadratickému rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot.
- Koeficient stanovení: Označuje se také jako hodnota R kvadvadla, což je statistická metrika označující, jak dobře model odpovídá datům.
Pro každou statistiku chyb platí, že menší hodnota je lepší. Menší hodnota označuje, že předpověď přesněji odpovídá skutečným hodnotám. U koeficientu stanovení je čím blíže jeho hodnota k jedné (1,0), tím lepší predikce.
Vyčištění prostředků
Pokud už prostředky vytvořené pomocí tohoto článku nepotřebujete, odstraňte je, abyste se vyhnuli poplatkům. Přečtěte si, jak v článku exportovat a odstranit uživatelská data v produktu.
Další kroky
V tomto rychlém startu jste vytvořili jednoduchý experiment pomocí ukázkové datové sady. Pokud chcete prozkoumat proces vytváření a nasazování modelu podrobněji, pokračujte kurzem prediktivního řešení.