Kurz: Návrhář – trénování regresního modelu bez kódu
Vytrénujte model lineární regrese, který predikuje ceny aut pomocí návrháře Azure Machine Learning. Tento kurz je první částí z dvoudílné série.
V tomto kurzu se používá návrhář Azure Machine Learning. Další informace najdete v tématu Co je návrhář služby Azure Machine Learning?
Poznámka
Designer podporuje dva typy komponent: klasické předem připravené komponenty (v1) a vlastní komponenty (v2). Tyto dva typy komponent NEJSOU kompatibilní.
Klasické předem připravené komponenty poskytují předem připravené komponenty hlavně pro zpracování dat a tradiční úlohy strojového učení, jako je regrese a klasifikace. Tento typ komponenty se podporuje i nadále, ale nebudou se přidávat žádné nové komponenty.
Vlastní komponenty umožňují zabalit vlastní kód jako komponentu. Podporuje sdílení komponent mezi pracovními prostory a bezproblémové vytváření obsahu v rozhraních sady Studio, CLI v2 a SDK v2.
Pro nové projekty důrazně doporučujeme použít vlastní komponentu, která je kompatibilní s AzureML V2 a bude dál dostávat nové aktualizace.
Tento článek se týká klasických předem připravených komponent a není kompatibilní s rozhraním příkazového řádku v2 a sadou SDK v2.
V první části kurzu se naučíte:
- Vytvořte nový kanál.
- Import dat.
- Příprava dat
- Trénování modelu strojového učení
- Vyhodnocení modelu strojového učení
V druhé části kurzu nasadíte model jako koncový bod pro odvozování v reálném čase, abyste mohli předpovědět cenu jakéhokoli vozu na základě technických specifikací, které mu pošlete.
Poznámka
Dokončená verze tohoto kurzu je k dispozici jako ukázkový kanál.
Najdete ho tak, že přejdete do návrháře ve vašem pracovním prostoru. V části Nový kanál vyberte Ukázka 1 – Regrese: Automobile Price Prediction(Basic).
Důležité
Pokud se v tomto dokumentu nezobrazují grafické prvky, jako jsou tlačítka ve studiu nebo návrháři, pravděpodobně nemáte správnou úroveň oprávnění k pracovnímu prostoru. Obraťte se na správce předplatného Azure a ověřte, že vám byla udělena správná úroveň přístupu. Další informace najdete v tématu Správa uživatelů a rolí.
Vytvoření nového kanálu
Kanály Azure Machine Learning organizují několik kroků strojového učení a zpracování dat do jednoho prostředku. Kanály umožňují organizovat, spravovat a opakovaně používat složité pracovní postupy strojového učení napříč projekty a uživateli.
K vytvoření kanálu Azure Machine Learning potřebujete pracovní prostor Azure Machine Learning. V této části se dozvíte, jak vytvořit oba tyto prostředky.
Vytvoření nového pracovního prostoru
K použití návrháře potřebujete pracovní prostor Azure Machine Learning. Pracovní prostor je prostředek nejvyšší úrovně pro Azure Machine Learning a poskytuje centralizované místo pro práci se všemi artefakty, které vytvoříte ve službě Azure Machine Learning. Pokyny k vytvoření pracovního prostoru najdete v tématu Vytvoření prostředků pracovního prostoru.
Poznámka
Pokud váš pracovní prostor používá virtuální síť, musíte k použití návrháře použít další kroky konfigurace. Další informace najdete v tématu Použití studio Azure Machine Learning ve virtuální síti Azure.
Vytvoření kanálu
Poznámka
Designer podporuje dva typy komponent: klasické předem připravené komponenty a vlastní komponenty. Tyto dva typy komponent nejsou kompatibilní.
Klasické předem připravené komponenty poskytují předem připravené komponenty hlavně pro zpracování dat a tradiční úlohy strojového učení, jako je regrese a klasifikace. Tento typ komponenty se podporuje i nadále, ale nebudou se přidávat žádné nové komponenty.
Vlastní komponenty umožňují poskytnout vlastní kód jako komponentu. Podporuje sdílení mezi pracovními prostory a bezproblémové vytváření obsahu v sadě Studio, CLI a rozhraních sady SDK.
Tento článek se týká klasických předem připravených komponent.
Přihlaste se k ml.azure.com a vyberte pracovní prostor, se kterým chcete pracovat.
Výběr Designer –>Classic
Vyberte Create a new pipeline using classic prebuilt components (Vytvořit nový kanál pomocí klasických předem připravených komponent).
Klikněte na ikonu tužky vedle automaticky vygenerovaného názvu konceptu kanálu a přejmenujte ho na Automobile price prediction (Predikce cen automobilů). Název nemusí být jedinečný.
Nastavení výchozího cílového výpočetního objektu
Úlohy kanálu na cílovém výpočetním objektu, což je výpočetní prostředek připojený k vašemu pracovnímu prostoru. Po vytvoření cílového výpočetního objektu ho můžete znovu použít pro budoucí úlohy.
Důležité
Připojené výpočetní prostředky se nepodporují. Místo toho použijte výpočetní instance nebo clustery .
Pro celý kanál můžete nastavit výchozí cílový výpočetní objekt, který ve výchozím nastavení řekne každé komponentě, aby používala stejný cílový výpočetní objekt. Cílové výpočetní objekty ale můžete zadat pro jednotlivé moduly.
Vyberte Nastavení napravo od plátna. Otevře se podokno Nastavení.
Vyberte Vytvořit výpočetní instanci služby Azure Machine Learning.
Pokud už máte dostupný cílový výpočetní objekt, můžete ho vybrat v rozevíracím seznamu Vybrat výpočetní instanci služby Azure Machine Learning a spustit tento kanál.
Nebo vyberte "Bezserverové" a použijte bezserverové výpočetní prostředky (Preview).
Zadejte název výpočetního prostředku.
Vyberte Vytvořit.
Poznámka
Vytvoření výpočetního prostředku trvá přibližně pět minut. Po vytvoření prostředku ho můžete znovu použít a tuto čekací dobu přeskočit pro budoucí úlohy.
Výpočetní prostředek se při nečinnosti automaticky škáluje na nula uzlů, aby se ušetřily náklady. Když ho použijete znovu po určité prodlevě, může docházet k přibližně pětiminutové čekací době, než dojde k opětovnému vertikálnímu navýšení kapacity.
Import dat
Návrhář obsahuje několik ukázkových datových sad, se kterými můžete experimentovat. Pro účely tohoto kurzu použijte data o cenách automobilů (Nezpracované).
Vlevo od plátna kanálu je paleta datových sad a komponent. Vyberte Komponenta –>Ukázková data.
Vyberte datovou sadu Automobile price data (Raw) a přetáhněte ji na plátno.
Vizualizace dat
Data můžete vizualizovat, abyste porozuměli datové sadě, kterou budete používat.
Klikněte pravým tlačítkem na Údaje o cenách automobilů (Nezpracované) a vyberte Náhled dat.
Výběrem různých sloupců v okně dat zobrazíte informace o každém z nich.
Každý řádek představuje automobil a proměnné přidružené k jednotlivým automobilům se zobrazí jako sloupce. Tato datová sada obsahuje 205 řádků a 26 sloupců.
Příprava dat
Datové sady obvykle před analýzou vyžadují určité předběžné zpracování. Při kontrole datové sady jste si mohli všimnout některých chybějících hodnot. Tyto chybějící hodnoty je potřeba vyčistit, aby model mohl data správně analyzovat.
Odebrání sloupce
Při trénování modelu musíte něco udělat s chybějícími daty. V této datové sadě chybí ve sloupci normalized-losses mnoho hodnot, takže ho z modelu úplně vyloučíte.
V datových sadách a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vybrat sloupce v datové sadě .
Přetáhněte komponentu Vybrat sloupce v datové sadě na plátno. Umístěte komponentu pod komponentu datové sady.
Připojte datovou sadu Automobile price data (Raw) k komponentě Select Columns in Dataset (Vybrat sloupce v datové sadě ). Přetáhněte z výstupního portu datové sady, což je malý kruh v dolní části datové sady na plátně, do vstupního portu Vybrat sloupce v datové sadě, což je malý kruh v horní části komponenty.
Tip
Tok dat přes kanál vytvoříte, když připojíte výstupní port jedné komponenty ke vstupnímu portu jiné.
Vyberte komponentu Vybrat sloupce v datové sadě .
Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Vybrat sloupce v datové sadě otevřít podokno podrobností.
Vpravo od podokna vyberte Upravit sloupec .
Rozbalte rozevírací seznam Názvy sloupců vedle zahrnout a vyberte Všechny sloupce.
Výběrem možnosti + přidáte nové pravidlo.
V rozevíracích nabídkách vyberte Vyloučit a Názvy sloupců.
Do textového pole zadejte normalized-losses .
V pravém dolním rohu vyberte Uložit a zavřete selektor sloupců.
V podokně Podrobnosti o komponentě Vybrat sloupce v datové sadě rozbalte Informace o uzlu.
Vyberte textové pole Komentář a zadejte Vyloučit normalizované ztráty.
V grafu se zobrazí komentáře, které vám pomůžou uspořádat kanál.
Vyčištění chybějících dat
Po odebrání sloupce normalized-losses v datové sadě stále chybí hodnoty. Zbývající chybějící data můžete odebrat pomocí komponenty Vyčistit chybějící data .
Tip
Vyčištění chybějících hodnot ze vstupních dat je předpokladem pro použití většiny komponent v návrháři.
V paletě datových sad a komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vyčistit chybějící data .
Přetáhněte komponentu Vyčistit chybějící data na plátno kanálu. Připojte ho k komponentě Vybrat sloupce v datové sadě .
Vyberte komponentu Vyčistit chybějící data .
Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Vyčistit chybějící data otevřít podokno podrobností.
Vpravo od podokna vyberte Upravit sloupec .
V zobrazeném okně Sloupce, které se mají vyčistit , rozbalte rozevírací nabídku vedle možnosti Zahrnout. Vybrat, Všechny sloupce
Vyberte Uložit.
V podokně Podrobnosti o komponentě Vyčistit chybějící data v části Režim čištění vyberte Odebrat celý řádek.
V podokně Podrobnosti o části Vyčištění chybějících dat rozbalte informace o uzlu.
Vyberte textové pole Komentář a zadejte Odebrat řádky chybějící hodnoty.
Váš kanál by teď měl vypadat nějak takto:
Trénování modelu strojového učení
Teď, když máte k dispozici komponenty pro zpracování dat, můžete nastavit trénovací komponenty.
Protože chcete předpovědět cenu, což je číslo, můžete použít regresní algoritmus. V tomto příkladu použijete model lineární regrese.
Rozdělení dat
Rozdělení dat je běžnou úlohou strojového učení. Data rozdělíte do dvou samostatných datových sad. Jedna datová sada vytrénuje model a druhá testuje, jak dobře model fungoval.
V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Rozdělit data .
Přetáhněte komponentu Rozdělit data na plátno kanálu.
Připojte levý port součásti Vyčistit chybějící data k komponentě Rozdělit data .
Důležité
Ujistěte se, že se levý výstupní port Vyčistit chybějící data připojuje k rozdělení dat. Levý port obsahuje vyčištěná data. Pravý port obsahuje zahozená data.
Vyberte komponentu Rozdělit data .
Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Rozdělit data otevřít podokno podrobností.
V podokně Podrobnosti rozdělení dat nastavte zlomek řádků v první výstupní datové sadě na hodnotu 0,7.
Tato možnost rozdělí 70 procent dat pro trénování modelu a 30 procent pro jeho testování. 70% datová sada bude přístupná přes levý výstupní port. Zbývající data budou k dispozici přes správný výstupní port.
V podokně Podrobnosti o rozdělení dat rozbalte Informace o uzlu.
Vyberte textové pole Komentář a zadejte Rozdělit datovou sadu na trénovací sadu (0.7) a testovací sadu (0.3).
Trénování modelu
Vytrénujte model tím, že mu dáte datovou sadu, která obsahuje cenu. Algoritmus vytvoří model, který vysvětluje vztah mezi funkcemi a cenou tak, jak jsou prezentovány trénovacími daty.
V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Lineární regrese .
Přetáhněte komponentu lineární regrese na plátno kanálu.
V paletě datových sad a komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Trénování modelu .
Přetáhněte komponentu Trénování modelu na plátno kanálu.
Připojte výstup komponenty lineární regrese k levému vstupu komponenty Trénování modelu .
Připojte výstup trénovacích dat (levý port) komponenty Rozdělit data k pravému vstupu komponenty Trénování modelu .
Důležité
Ujistěte se, že se levý výstupní port rozdělení dat připojuje k trénování modelu. Levý port obsahuje trénovací sadu. Správný port obsahuje testovací sadu.
Vyberte komponentu Trénování modelu .
Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Trénovat model otevřít podokno podrobností.
Vpravo od podokna vyberte Upravit sloupec .
V zobrazeném okně Sloupec popisku rozbalte rozevírací nabídku a vyberte Názvy sloupců.
Do textového pole zadejte cenu a určete hodnotu, kterou bude model predikovat.
Důležité
Ujistěte se, že jste přesně zadali název sloupce. Nevyužujte cenu velkými písmeny.
Váš kanál by měl vypadat takto:
Přidání komponenty Score Model
Po vytrénování modelu pomocí 70 procent dat ho můžete použít k ohodnocení zbývajících 30 procent, abyste viděli, jak dobře model funguje.
V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Score Model (Skóre modelu ).
Přetáhněte komponentu Score Model na plátno kanálu.
Připojte výstup komponenty Trénování modelu k levému vstupnímu portu score modelu. Připojte výstup testovacích dat (pravý port) komponenty Split Data ke správnému vstupnímu portu modelu skóre.
Přidání komponenty Vyhodnotit model
Pomocí komponenty Evaluate Model (Vyhodnotit model ) vyhodnoťte, jak dobře váš model vyhodnotil testovací datovou sadu.
V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vyhodnotit model .
Přetáhněte komponentu Vyhodnotit model na plátno kanálu.
Připojte výstup komponenty Score Model (Skóre modelu ) k levému vstupu funkce Evaluate Model (Vyhodnotit model).
Konečný kanál by měl vypadat nějak takto:
Odeslání kanálu
Teď, když je váš kanál nastavený, můžete odeslat úlohu kanálu pro trénování modelu strojového učení. Platnou úlohu kanálu můžete kdykoli odeslat a použít ji ke kontrole změn kanálu během vývoje.
V horní části plátna vyberte Odeslat.
V dialogovém okně Nastavit úlohu kanálu vyberte Vytvořit novou.
Poznámka
Experimenty seskupují podobné úlohy kanálu. Pokud kanál spustíte vícekrát, můžete vybrat stejný experiment pro po sobě jdoucí úlohy.
Jako Nový název experimentu zadejte Tutorial-CarPrices.
Vyberte Odeslat.
V levém podokně plátna se zobrazí seznam odeslání a v pravém horním rohu stránky se zobrazí oznámení. Výběrem odkazu Podrobnosti úlohy můžete přejít na stránku podrobností úlohy pro ladění.
Pokud se jedná o první úlohu, může trvat až 20 minut, než se kanál dokončí. Výchozí nastavení výpočetních prostředků má minimální velikost uzlu 0, což znamená, že návrhář musí přidělit prostředky po nečinnosti. Opakované úlohy kanálu budou trvat kratší dobu, protože výpočetní prostředky už jsou přidělené. Kromě toho návrhář používá výsledky uložené v mezipaměti pro každou komponentu k dalšímu zvýšení efektivity.
Zobrazení popisků s skóre
Na stránce s podrobnostmi úlohy můžete zkontrolovat stav úlohy kanálu, výsledky a protokoly.
Po dokončení úlohy můžete zobrazit výsledky úlohy kanálu. Nejprve se podívejte na předpovědi generované regresním modelem.
Klikněte pravým tlačítkem na komponentu Score Model (Skóre modelu ) a vyberte Náhled dat>s skóre a zobrazte její výstup.
Tady si můžete prohlédnout predikované ceny a skutečné ceny z testovacích dat.
Vyhodnocení modelů
Pomocí vyhodnocení modelu můžete zjistit, jak dobře natrénovaný model na testovací datové sadě fungoval.
- Klikněte pravým tlačítkem na komponentu Vyhodnotit model a vyberte Náhledvýsledků vyhodnocenídat>, aby se zobrazil její výstup.
Pro váš model se zobrazí následující statistiky:
- Střední absolutní chyba (MAE): Průměr absolutních chyb. Chyba je rozdíl mezi předpovězenou hodnotou a skutečnou hodnotou.
- Kořenová střední kvadratická chyba (RMSE): Druhá odmocnina průměru kvadratické chyby předpovědí provedených u testovací datové sady.
- Relativní absolutní chyba: Průměr absolutních chyb relativních k absolutnímu rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot
- Relativní kvadratická chyba: Průměr kvadratických chyb relativních ke kvadratickému rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot
- Koeficient určení: Tato statistická metrika označuje, jak dobře model odpovídá datům.
Pro každou statistiku chyb platí, že menší hodnota je lepší. Menší hodnota označuje, že předpovědi jsou blíže skutečným hodnotám. Pro koeficient stanovení platí, že čím blíže je jeho hodnota jedna (1,0), tím lepší jsou předpovědi.
Vyčištění prostředků
Pokud chcete pokračovat v části 2 kurzu nasazení modelů, tuto část přeskočte.
Důležité
Prostředky, které jste vytvořili, můžete využít jako předpoklady pro jiné kurzy a články s postupy pro Azure Machine Learning.
Odstranit všechno
Pokud nemáte v úmyslu použít nic, co jste vytvořili, odstraňte celou skupinu prostředků, aby se vám neúčtovaly žádné poplatky.
V Azure Portal na levé straně okna vyberte Skupiny prostředků.
V seznamu vyberte skupinu prostředků, kterou jste vytvořili.
Vyberte Odstranit skupinu prostředků.
Odstraněním skupiny prostředků se odstraní také všechny prostředky, které jste vytvořili v návrháři.
Odstranění jednotlivých prostředků
V návrháři, ve kterém jste experiment vytvořili, odstraňte jednotlivé prostředky tak, že je vyberete a pak vyberete tlačítko Odstranit .
Cílový výpočetní objekt, který jste zde vytvořili, se automaticky škáluje na nula uzlů, když se nepoužívá. Tato akce se provede, aby se minimalizovaly poplatky. Pokud chcete odstranit cíl výpočetních prostředků, postupujte takto:
Registraci datových sad z pracovního prostoru můžete zrušit tak, že vyberete každou datovou sadu a vyberete Zrušit registraci.
Pokud chcete odstranit datovou sadu, přejděte do účtu úložiště pomocí Azure Portal nebo Průzkumník služby Azure Storage a ručně odstraňte tyto prostředky.
Další kroky
Ve druhé části se dozvíte, jak nasadit model jako koncový bod v reálném čase.