Kurz: Návrhář – trénování regresního modelu bez kódu

Vytrénujte model lineární regrese, který predikuje ceny aut pomocí návrháře Azure Machine Learning. Tento kurz je první částí z dvoudílné série.

V tomto kurzu se používá návrhář Azure Machine Learning. Další informace najdete v tématu Co je návrhář služby Azure Machine Learning?

Poznámka

Designer podporuje dva typy komponent: klasické předem připravené komponenty (v1) a vlastní komponenty (v2). Tyto dva typy komponent NEJSOU kompatibilní.

Klasické předem připravené komponenty poskytují předem připravené komponenty hlavně pro zpracování dat a tradiční úlohy strojového učení, jako je regrese a klasifikace. Tento typ komponenty se podporuje i nadále, ale nebudou se přidávat žádné nové komponenty.

Vlastní komponenty umožňují zabalit vlastní kód jako komponentu. Podporuje sdílení komponent mezi pracovními prostory a bezproblémové vytváření obsahu v rozhraních sady Studio, CLI v2 a SDK v2.

Pro nové projekty důrazně doporučujeme použít vlastní komponentu, která je kompatibilní s AzureML V2 a bude dál dostávat nové aktualizace.

Tento článek se týká klasických předem připravených komponent a není kompatibilní s rozhraním příkazového řádku v2 a sadou SDK v2.

V první části kurzu se naučíte:

  • Vytvořte nový kanál.
  • Import dat.
  • Příprava dat
  • Trénování modelu strojového učení
  • Vyhodnocení modelu strojového učení

V druhé části kurzu nasadíte model jako koncový bod pro odvozování v reálném čase, abyste mohli předpovědět cenu jakéhokoli vozu na základě technických specifikací, které mu pošlete.

Poznámka

Dokončená verze tohoto kurzu je k dispozici jako ukázkový kanál.

Najdete ho tak, že přejdete do návrháře ve vašem pracovním prostoru. V části Nový kanál vyberte Ukázka 1 – Regrese: Automobile Price Prediction(Basic).

Důležité

Pokud se v tomto dokumentu nezobrazují grafické prvky, jako jsou tlačítka ve studiu nebo návrháři, pravděpodobně nemáte správnou úroveň oprávnění k pracovnímu prostoru. Obraťte se na správce předplatného Azure a ověřte, že vám byla udělena správná úroveň přístupu. Další informace najdete v tématu Správa uživatelů a rolí.

Vytvoření nového kanálu

Kanály Azure Machine Learning organizují několik kroků strojového učení a zpracování dat do jednoho prostředku. Kanály umožňují organizovat, spravovat a opakovaně používat složité pracovní postupy strojového učení napříč projekty a uživateli.

K vytvoření kanálu Azure Machine Learning potřebujete pracovní prostor Azure Machine Learning. V této části se dozvíte, jak vytvořit oba tyto prostředky.

Vytvoření nového pracovního prostoru

K použití návrháře potřebujete pracovní prostor Azure Machine Learning. Pracovní prostor je prostředek nejvyšší úrovně pro Azure Machine Learning a poskytuje centralizované místo pro práci se všemi artefakty, které vytvoříte ve službě Azure Machine Learning. Pokyny k vytvoření pracovního prostoru najdete v tématu Vytvoření prostředků pracovního prostoru.

Poznámka

Pokud váš pracovní prostor používá virtuální síť, musíte k použití návrháře použít další kroky konfigurace. Další informace najdete v tématu Použití studio Azure Machine Learning ve virtuální síti Azure.

Vytvoření kanálu

Poznámka

Designer podporuje dva typy komponent: klasické předem připravené komponenty a vlastní komponenty. Tyto dva typy komponent nejsou kompatibilní.

Klasické předem připravené komponenty poskytují předem připravené komponenty hlavně pro zpracování dat a tradiční úlohy strojového učení, jako je regrese a klasifikace. Tento typ komponenty se podporuje i nadále, ale nebudou se přidávat žádné nové komponenty.

Vlastní komponenty umožňují poskytnout vlastní kód jako komponentu. Podporuje sdílení mezi pracovními prostory a bezproblémové vytváření obsahu v sadě Studio, CLI a rozhraních sady SDK.

Tento článek se týká klasických předem připravených komponent.

  1. Přihlaste se k ml.azure.com a vyberte pracovní prostor, se kterým chcete pracovat.

  2. Výběr Designer –>Classic

    Snímek obrazovky pracovního prostoru vizuálu znázorňující přístup k návrháři

  3. Vyberte Create a new pipeline using classic prebuilt components (Vytvořit nový kanál pomocí klasických předem připravených komponent).

  4. Klikněte na ikonu tužky vedle automaticky vygenerovaného názvu konceptu kanálu a přejmenujte ho na Automobile price prediction (Predikce cen automobilů). Název nemusí být jedinečný.

Snímek obrazovky s ikonou tužky pro změnu názvu konceptu kanálu

Nastavení výchozího cílového výpočetního objektu

Úlohy kanálu na cílovém výpočetním objektu, což je výpočetní prostředek připojený k vašemu pracovnímu prostoru. Po vytvoření cílového výpočetního objektu ho můžete znovu použít pro budoucí úlohy.

Důležité

Připojené výpočetní prostředky se nepodporují. Místo toho použijte výpočetní instance nebo clustery .

Pro celý kanál můžete nastavit výchozí cílový výpočetní objekt, který ve výchozím nastavení řekne každé komponentě, aby používala stejný cílový výpočetní objekt. Cílové výpočetní objekty ale můžete zadat pro jednotlivé moduly.

  1. Vyberte Snímek obrazovky s ikonou ozubeného kola, která je v uživatelském rozhraní.Nastavení napravo od plátna. Otevře se podokno Nastavení.

  2. Vyberte Vytvořit výpočetní instanci služby Azure Machine Learning.

    • Pokud už máte dostupný cílový výpočetní objekt, můžete ho vybrat v rozevíracím seznamu Vybrat výpočetní instanci služby Azure Machine Learning a spustit tento kanál.

    • Nebo vyberte "Bezserverové" a použijte bezserverové výpočetní prostředky (Preview).

  3. Zadejte název výpočetního prostředku.

  4. Vyberte Vytvořit.

    Poznámka

    Vytvoření výpočetního prostředku trvá přibližně pět minut. Po vytvoření prostředku ho můžete znovu použít a tuto čekací dobu přeskočit pro budoucí úlohy.

    Výpočetní prostředek se při nečinnosti automaticky škáluje na nula uzlů, aby se ušetřily náklady. Když ho použijete znovu po určité prodlevě, může docházet k přibližně pětiminutové čekací době, než dojde k opětovnému vertikálnímu navýšení kapacity.

Import dat

Návrhář obsahuje několik ukázkových datových sad, se kterými můžete experimentovat. Pro účely tohoto kurzu použijte data o cenách automobilů (Nezpracované).

  1. Vlevo od plátna kanálu je paleta datových sad a komponent. Vyberte Komponenta –>Ukázková data.

  2. Vyberte datovou sadu Automobile price data (Raw) a přetáhněte ji na plátno.

    Obrázek GIF přetažení dat o cenách automobilů na plátno

Vizualizace dat

Data můžete vizualizovat, abyste porozuměli datové sadě, kterou budete používat.

  1. Klikněte pravým tlačítkem na Údaje o cenách automobilů (Nezpracované) a vyberte Náhled dat.

  2. Výběrem různých sloupců v okně dat zobrazíte informace o každém z nich.

    Každý řádek představuje automobil a proměnné přidružené k jednotlivým automobilům se zobrazí jako sloupce. Tato datová sada obsahuje 205 řádků a 26 sloupců.

Příprava dat

Datové sady obvykle před analýzou vyžadují určité předběžné zpracování. Při kontrole datové sady jste si mohli všimnout některých chybějících hodnot. Tyto chybějící hodnoty je potřeba vyčistit, aby model mohl data správně analyzovat.

Odebrání sloupce

Při trénování modelu musíte něco udělat s chybějícími daty. V této datové sadě chybí ve sloupci normalized-losses mnoho hodnot, takže ho z modelu úplně vyloučíte.

  1. V datových sadách a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vybrat sloupce v datové sadě .

  2. Přetáhněte komponentu Vybrat sloupce v datové sadě na plátno. Umístěte komponentu pod komponentu datové sady.

  3. Připojte datovou sadu Automobile price data (Raw) k komponentě Select Columns in Dataset (Vybrat sloupce v datové sadě ). Přetáhněte z výstupního portu datové sady, což je malý kruh v dolní části datové sady na plátně, do vstupního portu Vybrat sloupce v datové sadě, což je malý kruh v horní části komponenty.

    Tip

    Tok dat přes kanál vytvoříte, když připojíte výstupní port jedné komponenty ke vstupnímu portu jiné.

    Snímek obrazovky s propojením datové komponenty Automobile price k výběru sloupců v komponentě datové sady

  4. Vyberte komponentu Vybrat sloupce v datové sadě .

  5. Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Vybrat sloupce v datové sadě otevřít podokno podrobností.

  6. Vpravo od podokna vyberte Upravit sloupec .

  7. Rozbalte rozevírací seznam Názvy sloupců vedle zahrnout a vyberte Všechny sloupce.

  8. Výběrem možnosti + přidáte nové pravidlo.

  9. V rozevíracích nabídkách vyberte Vyloučit a Názvy sloupců.

  10. Do textového pole zadejte normalized-losses .

  11. V pravém dolním rohu vyberte Uložit a zavřete selektor sloupců.

    Snímek obrazovky s vybranými sloupci se zvýrazněným vyloučením

  12. V podokně Podrobnosti o komponentě Vybrat sloupce v datové sadě rozbalte Informace o uzlu.

  13. Vyberte textové pole Komentář a zadejte Vyloučit normalizované ztráty.

    V grafu se zobrazí komentáře, které vám pomůžou uspořádat kanál.

Vyčištění chybějících dat

Po odebrání sloupce normalized-losses v datové sadě stále chybí hodnoty. Zbývající chybějící data můžete odebrat pomocí komponenty Vyčistit chybějící data .

Tip

Vyčištění chybějících hodnot ze vstupních dat je předpokladem pro použití většiny komponent v návrháři.

  1. V paletě datových sad a komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vyčistit chybějící data .

  2. Přetáhněte komponentu Vyčistit chybějící data na plátno kanálu. Připojte ho k komponentě Vybrat sloupce v datové sadě .

  3. Vyberte komponentu Vyčistit chybějící data .

  4. Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Vyčistit chybějící data otevřít podokno podrobností.

  5. Vpravo od podokna vyberte Upravit sloupec .

  6. V zobrazeném okně Sloupce, které se mají vyčistit , rozbalte rozevírací nabídku vedle možnosti Zahrnout. Vybrat, Všechny sloupce

  7. Vyberte Uložit.

  8. V podokně Podrobnosti o komponentě Vyčistit chybějící data v části Režim čištění vyberte Odebrat celý řádek.

  9. V podokně Podrobnosti o části Vyčištění chybějících dat rozbalte informace o uzlu.

  10. Vyberte textové pole Komentář a zadejte Odebrat řádky chybějící hodnoty.

    Váš kanál by teď měl vypadat nějak takto:

    Snímek obrazovky s daty o cenách automobilů připojených k vybraným sloupcům v komponentě datové sady, která je připojená k vyčištění chybějících dat

Trénování modelu strojového učení

Teď, když máte k dispozici komponenty pro zpracování dat, můžete nastavit trénovací komponenty.

Protože chcete předpovědět cenu, což je číslo, můžete použít regresní algoritmus. V tomto příkladu použijete model lineární regrese.

Rozdělení dat

Rozdělení dat je běžnou úlohou strojového učení. Data rozdělíte do dvou samostatných datových sad. Jedna datová sada vytrénuje model a druhá testuje, jak dobře model fungoval.

  1. V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Rozdělit data .

  2. Přetáhněte komponentu Rozdělit data na plátno kanálu.

  3. Připojte levý port součásti Vyčistit chybějící data k komponentě Rozdělit data .

    Důležité

    Ujistěte se, že se levý výstupní port Vyčistit chybějící data připojuje k rozdělení dat. Levý port obsahuje vyčištěná data. Pravý port obsahuje zahozená data.

  4. Vyberte komponentu Rozdělit data .

  5. Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Rozdělit data otevřít podokno podrobností.

  6. V podokně Podrobnosti rozdělení dat nastavte zlomek řádků v první výstupní datové sadě na hodnotu 0,7.

    Tato možnost rozdělí 70 procent dat pro trénování modelu a 30 procent pro jeho testování. 70% datová sada bude přístupná přes levý výstupní port. Zbývající data budou k dispozici přes správný výstupní port.

  7. V podokně Podrobnosti o rozdělení dat rozbalte Informace o uzlu.

  8. Vyberte textové pole Komentář a zadejte Rozdělit datovou sadu na trénovací sadu (0.7) a testovací sadu (0.3).

Trénování modelu

Vytrénujte model tím, že mu dáte datovou sadu, která obsahuje cenu. Algoritmus vytvoří model, který vysvětluje vztah mezi funkcemi a cenou tak, jak jsou prezentovány trénovacími daty.

  1. V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Lineární regrese .

  2. Přetáhněte komponentu lineární regrese na plátno kanálu.

  3. V paletě datových sad a komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Trénování modelu .

  4. Přetáhněte komponentu Trénování modelu na plátno kanálu.

  5. Připojte výstup komponenty lineární regrese k levému vstupu komponenty Trénování modelu .

  6. Připojte výstup trénovacích dat (levý port) komponenty Rozdělit data k pravému vstupu komponenty Trénování modelu .

    Důležité

    Ujistěte se, že se levý výstupní port rozdělení dat připojuje k trénování modelu. Levý port obsahuje trénovací sadu. Správný port obsahuje testovací sadu.

    Snímek obrazovky znázorňující, že se lineární regrese připojuje k levému portu trénování modelu a rozdělená data se připojuje k pravému portu trénování modelu

  7. Vyberte komponentu Trénování modelu .

  8. Kliknutím na ikonu šipky v části Nastavení napravo od plátna otevřete podokno podrobností komponenty. Případně můžete poklikáním na komponentu Trénovat model otevřít podokno podrobností.

  9. Vpravo od podokna vyberte Upravit sloupec .

  10. V zobrazeném okně Sloupec popisku rozbalte rozevírací nabídku a vyberte Názvy sloupců.

  11. Do textového pole zadejte cenu a určete hodnotu, kterou bude model predikovat.

    Důležité

    Ujistěte se, že jste přesně zadali název sloupce. Nevyužujte cenu velkými písmeny.

    Váš kanál by měl vypadat takto:

    Snímek obrazovky znázorňující správnou konfiguraci kanálu po přidání komponenty Trénování modelu

Přidání komponenty Score Model

Po vytrénování modelu pomocí 70 procent dat ho můžete použít k ohodnocení zbývajících 30 procent, abyste viděli, jak dobře model funguje.

  1. V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Score Model (Skóre modelu ).

  2. Přetáhněte komponentu Score Model na plátno kanálu.

  3. Připojte výstup komponenty Trénování modelu k levému vstupnímu portu score modelu. Připojte výstup testovacích dat (pravý port) komponenty Split Data ke správnému vstupnímu portu modelu skóre.

Přidání komponenty Vyhodnotit model

Pomocí komponenty Evaluate Model (Vyhodnotit model ) vyhodnoťte, jak dobře váš model vyhodnotil testovací datovou sadu.

  1. V datové sadě a paletě komponent nalevo od plátna klikněte na Komponenta a vyhledejte komponentu Vyhodnotit model .

  2. Přetáhněte komponentu Vyhodnotit model na plátno kanálu.

  3. Připojte výstup komponenty Score Model (Skóre modelu ) k levému vstupu funkce Evaluate Model (Vyhodnotit model).

    Konečný kanál by měl vypadat nějak takto:

    Snímek obrazovky se správnou konfigurací kanálu

Odeslání kanálu

Teď, když je váš kanál nastavený, můžete odeslat úlohu kanálu pro trénování modelu strojového učení. Platnou úlohu kanálu můžete kdykoli odeslat a použít ji ke kontrole změn kanálu během vývoje.

  1. V horní části plátna vyberte Odeslat.

  2. V dialogovém okně Nastavit úlohu kanálu vyberte Vytvořit novou.

    Poznámka

    Experimenty seskupují podobné úlohy kanálu. Pokud kanál spustíte vícekrát, můžete vybrat stejný experiment pro po sobě jdoucí úlohy.

    1. Jako Nový název experimentu zadejte Tutorial-CarPrices.

    2. Vyberte Odeslat.

    3. V levém podokně plátna se zobrazí seznam odeslání a v pravém horním rohu stránky se zobrazí oznámení. Výběrem odkazu Podrobnosti úlohy můžete přejít na stránku podrobností úlohy pro ladění.

      Snímek obrazovky se seznamem odeslaných úloh s oznámením o úspěchu

    Pokud se jedná o první úlohu, může trvat až 20 minut, než se kanál dokončí. Výchozí nastavení výpočetních prostředků má minimální velikost uzlu 0, což znamená, že návrhář musí přidělit prostředky po nečinnosti. Opakované úlohy kanálu budou trvat kratší dobu, protože výpočetní prostředky už jsou přidělené. Kromě toho návrhář používá výsledky uložené v mezipaměti pro každou komponentu k dalšímu zvýšení efektivity.

Zobrazení popisků s skóre

Na stránce s podrobnostmi úlohy můžete zkontrolovat stav úlohy kanálu, výsledky a protokoly.

Snímek obrazovky zobrazující stránku podrobností úlohy kanálu

Po dokončení úlohy můžete zobrazit výsledky úlohy kanálu. Nejprve se podívejte na předpovědi generované regresním modelem.

  1. Klikněte pravým tlačítkem na komponentu Score Model (Skóre modelu ) a vyberte Náhled dat>s skóre a zobrazte její výstup.

    Tady si můžete prohlédnout predikované ceny a skutečné ceny z testovacích dat.

    Snímek obrazovky s výstupní vizualizací se zvýrazněným sloupcem Scored Label

Vyhodnocení modelů

Pomocí vyhodnocení modelu můžete zjistit, jak dobře natrénovaný model na testovací datové sadě fungoval.

  1. Klikněte pravým tlačítkem na komponentu Vyhodnotit model a vyberte Náhledvýsledků vyhodnocenídat>, aby se zobrazil její výstup.

Pro váš model se zobrazí následující statistiky:

  • Střední absolutní chyba (MAE): Průměr absolutních chyb. Chyba je rozdíl mezi předpovězenou hodnotou a skutečnou hodnotou.
  • Kořenová střední kvadratická chyba (RMSE): Druhá odmocnina průměru kvadratické chyby předpovědí provedených u testovací datové sady.
  • Relativní absolutní chyba: Průměr absolutních chyb relativních k absolutnímu rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot
  • Relativní kvadratická chyba: Průměr kvadratických chyb relativních ke kvadratickému rozdílu mezi skutečnými hodnotami a průměrem všech skutečných hodnot
  • Koeficient určení: Tato statistická metrika označuje, jak dobře model odpovídá datům.

Pro každou statistiku chyb platí, že menší hodnota je lepší. Menší hodnota označuje, že předpovědi jsou blíže skutečným hodnotám. Pro koeficient stanovení platí, že čím blíže je jeho hodnota jedna (1,0), tím lepší jsou předpovědi.

Vyčištění prostředků

Pokud chcete pokračovat v části 2 kurzu nasazení modelů, tuto část přeskočte.

Důležité

Prostředky, které jste vytvořili, můžete využít jako předpoklady pro jiné kurzy a články s postupy pro Azure Machine Learning.

Odstranit všechno

Pokud nemáte v úmyslu použít nic, co jste vytvořili, odstraňte celou skupinu prostředků, aby se vám neúčtovaly žádné poplatky.

  1. V Azure Portal na levé straně okna vyberte Skupiny prostředků.

    Odstranění skupiny prostředků na webu Azure Portal

  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili.

  3. Vyberte Odstranit skupinu prostředků.

Odstraněním skupiny prostředků se odstraní také všechny prostředky, které jste vytvořili v návrháři.

Odstranění jednotlivých prostředků

V návrháři, ve kterém jste experiment vytvořili, odstraňte jednotlivé prostředky tak, že je vyberete a pak vyberete tlačítko Odstranit .

Cílový výpočetní objekt, který jste zde vytvořili, se automaticky škáluje na nula uzlů, když se nepoužívá. Tato akce se provede, aby se minimalizovaly poplatky. Pokud chcete odstranit cíl výpočetních prostředků, postupujte takto:

Odstranění prostředků

Registraci datových sad z pracovního prostoru můžete zrušit tak, že vyberete každou datovou sadu a vyberete Zrušit registraci.

Zrušení registrace datové sady

Pokud chcete odstranit datovou sadu, přejděte do účtu úložiště pomocí Azure Portal nebo Průzkumník služby Azure Storage a ručně odstraňte tyto prostředky.

Další kroky

Ve druhé části se dozvíte, jak nasadit model jako koncový bod v reálném čase.