Volba scénáře a příprava dat
V této lekci se dozvíte o výběru scénáře, výběru trénovacího prostředí a přípravě dat na trénování v Tvůrci modelů.
Zahájení procesu trénování
Pokud chcete zahájit proces trénování, musíte do nové nebo existující aplikace .NET přidat novou položku modelu Učení počítače (ML.NET).
Tip
Přenositelnost je jednou z výhod, které vám knihovny tříd poskytují. Knihovny tříd usnadňují odkazování na všechny modely, které jsou součástí konzoly, plochy, webu a jakéhokoli jiného typu aplikace .NET. Do knihovny tříd doporučujeme přidat položky modelu Učení počítače (ML.NET).
Položka Machine Učení Model (ML.NET) přidá do projektu soubor s příponou .mbconfig. Soubory, které používají příponu .mbconfig , jsou konfigurační soubory Tvůrce modelů vytvořené ve formátu JSON. Tyto soubory umožňují:
- Zadejte název modelu.
- Spolupracujte s ostatními uživateli ve vašem týmu prostřednictvím správy zdrojového kódu.
- Zachovat stav. Pokud v jakémkoli okamžiku v procesu trénování potřebujete zavřít Tvůrce modelů, váš stav se uloží a můžete si vybrat místo, kde jste skončili.
Zvolte scénář
Prvním krokem k trénování modelu strojového učení je rozhodování o tom, který scénář a úloha strojového učení jsou nejvhodnější vzhledem k tomu, co se snažíte předpovědět.
Co je scénář?
Scénář popisuje problém, který se pokoušíte vyřešit pomocí dat. Mezi běžné scénáře patří ty, které jsou uvedené v předchozí lekci:
- Kategorizace dat: Uspořádejte příspěvky podle témat.
- Předpověď číselné hodnoty: Odhad ceny domu
- Seskupení položek s podobnými vlastnostmi: Segmentace zákazníků
- Klasifikace obrázků: Označte obrázek na základě jeho obsahu.
- Doporučené položky: Doporučte filmy.
- Detekce objektů na obrázku: Rozpoznává chodce a jízdní kola v průsečíku.
Scénáře se mapují na úlohy strojového učení. Úloha strojového učení je typ předpovědi nebo odvozování na základě problému nebo otázky, která se ptá, a dostupných dat.
Úlohy strojového učení obvykle spadají do dvou kategorií:
- Hlídané
- Bez dozoru
Hlavním rozdílem mezi nimi je, jestli je popisek nebo hodnota, kterou se pokoušíte předpovědět, známá nebo ne.
U úkolů pod dohledem je popisek známý. Mezi příklady úloh strojového učení pod dohledem patří:
- Klasifikace
- Binární (dvě kategorie)
- Vícetřídy (dvě nebo více kategorií)
- Obrázek
- Regrese
U úkolů bez dohledu je popisek neznámý. Mezi příklady úloh strojového učení bez supervize patří:
- Clustering
- Detekce anomálií
Podporované scénáře v Tvůrci modelů
Tvůrce modelů podporuje následující scénáře, které se mapují na úlohy strojového učení:
Scénář | Úloha strojového učení | Případ použití |
---|---|---|
Klasifikace dat | Binární a vícetřídová klasifikace | Uspořádejte články podle tématu. |
Predikce hodnot | lineární regrese | Predikujte cenu domu na základě vlastností domu. |
Klasifikace obrázku | Klasifikace obrázků (hluboké učení) | Uspořádejte obrázky podle druhů zvířat na základě obsahu obrázku. |
Doporučení | Doporučení | Doporučte filmy na základě předvoleb podobných uživatelů. |
Detekce objektů | Rozpoznávání objektů (hluboké učení) | Identifikace fyzického poškození na obrázku |
Volba scénáře prediktivní údržby
V závislosti na tom, jak vaše data vypadají, je možné problém prediktivní údržby modelovat prostřednictvím různých úloh. V případě použití je popisek binární hodnotou (0 nebo 1), která popisuje, jestli je počítač poškozený nebo ne, je vhodný scénář klasifikace dat.
Volba prostředí
Teď, když jste vybrali klasifikaci dat, je čas zvolit prostředí, ve kterém chcete vytrénovat model strojového učení. Prostředí popisují výpočetní prostředky, které použijete k trénování modelu strojového učení.
Podporovaná prostředí v Tvůrci modelů
Tvůrce modelů podporuje následující možnosti prostředí:
Scénář | Místní procesor | Místní GPU | Azure GPU |
---|---|---|---|
Klasifikace dat | ✔️ | ❌ | ❌ |
Predikce hodnot | ✔️ | ❌ | ❌ |
Klasifikace obrázku | ✔️ | ✔️ | ✔️ |
Doporučení | ✔️ | ❌ | ❌ |
Detekce objektů | ❌ | ❌ | ✔️ |
V závislosti na vašem případu použití existují různé důvody, proč můžete zvolit místní prostředí nebo prostředí Azure.
Místní prostředí
Mezi důvody, proč byste mohli zvážit místní výpočetní prostředí, patří:
- Školení místně vám nic nestojí, protože používáte prostředky počítače.
- Nechcete, aby vaše data opustila počítač nebo datové centrum.
Prostředí Azure
Scénáře, jako je klasifikace obrázků a detekce objektů, jsou náročné na prostředky. Použití GPU může často urychlit proces trénování. Pokud nemáte GPU nebo počítač s dostatečným využitím procesoru nebo paměti RAM, může přesměrování procesu trénování do Azure tížit zatížení systému.
Načtení a příprava dat
S vybraným scénářem a trénovacím prostředím je čas načíst a připravit data.
Data jsou nejdůležitější komponentou pro vytváření modelů strojového učení. Proces načítání dat do Tvůrce modelů se skládá ze tří kroků:
- Zvolte typ zdroje dat.
- Zadejte umístění dat.
- Zvolte účel sloupce.
Zvolte typ zdroje dat.
V závislosti na vašem scénáři Tvůrce modelů podporuje načítání dat z následujících zdrojů:
- Soubory s oddělovači (čárka, středník a tabulátor)
- Místní a vzdálené databáze SQL Serveru
- Obrázky (.jpg a .png)
Zadejte umístění dat.
Po výběru typu zdroje dat musíte zadat umístění, kde je datová sada uložená. Toto umístění může být adresář, cesta k souboru nebo připojovací řetězec databáze. Závisí na scénáři a typu zdroje dat, který jste vybrali.
Když je zdroj dat vybraný v Tvůrci modelů, analyzuje data a snaží se identifikovat co nejlépe:
- Názvy záhlaví a sloupců
- Oddělovač sloupců
- Datový typ sloupce
- Účel sloupce
- Oddělovače desetinných míst
Po načtení dat zobrazí Tvůrce modelů náhled některých prvků v datové sadě.
Výběr účelu sloupce
V závislosti na zvoleném scénáři budete muset definovat účel určitých sloupců. Ve scénářích, jako je klasifikace dat a predikce hodnot, budete muset zvolit, který ze sloupců je sloupec, který chcete předpovědět (popisek).
Ve výchozím nastavení se všechny ostatní sloupce, které nejsou popiskem, používají jako funkce. Funkce jsou sloupce používané jako vstupy k predikci popisku.
Pokročilé možnosti dat
Tvůrce modelů nabízí pokročilé možnosti dat, které vám umožní přizpůsobit způsob načítání dat. Tyto možnosti umožňují přizpůsobit nastavení týkající se sloupců a formátování datové sady.
U sloupců můžete zvolit následující nastavení:
- Účel: Má být sloupec funkcí, popiskem nebo ignorován? Jako popisek můžete vybrat jenom jeden sloupec.
- Datový typ: Jedná se o hodnotu s jednou přesností na plovoucí hodnotu, řetězec nebo logickou hodnotu?
- Kategorická: Představuje sloupec kategorickou hodnotu (například: nízká, střední nebo vysoká)?
Pokud chcete formátovat data, můžete zvolit, jestli data obsahují záhlaví sloupců, oddělovač sloupců (čárka, středník nebo tabulátor) a typ oddělovače desetinných míst (tečka nebo čárka).
Principy datové sady prediktivní údržby
Datová sada použitá v tomto modulu je datová sada prediktivní údržby AI4I 2020. Tato syntetická datová sada odráží skutečná data prediktivní údržby zjištěná v odvětví. Skládá se z 10 000 datových bodů a 14 sloupců. Pochází z:
Vysvětlitelná umělá inteligence pro aplikace prediktivní údržby, Stephan Matzka, třetí mezinárodní konference o umělé inteligenci pro odvětví (AI4I 2020), 2020 (v tisku) a hostovaná v úložišti UCI Machine Učení – Dua, D. a Graff, C. (2019). UCI Machine Učení Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Tady je náhled toho, jak data vypadají:
UDI | ID produktu | Typ | Teplota vzduchu [K] | Teplota procesu [K] | Rychlost otáčení [ot/min] | Točivý moment [Nm] | Opotřebení nástroje [min] | Selhání počítače | TWF | HDF | PWF | OSF | RNF |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | M14860 | M | 298.1 | 308.6 | 1551 | 42.8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
162 | L47341 | L | 298.3 | 308.1 | 1412 | 52.3 | 218 | 0 | 0 | 0 | 0 | 1 | 0 |
Sloupce jsou definovány takto:
- UDI: Index řádku.
- ID produktu: Identifikátor produktu, který obsahuje kategorii typu produktu a sériové číslo specifické pro variantu.
- Typ: Kategorie kvality produktu. Hodnoty jsou L (nízká; 50 % všech produktů), M (střední; 30 %) nebo H (vysoká; 20 %).
- Teplota vzduchu [K], Teplota procesu [K], Rotační rychlost [rpm], Točivý moment [Nm], Opotřebení nástrojů [min]: Hodnoty shromážděné ze senzorů.
- Selhání počítače: Binární popisek (0 nebo 1), který označuje, jestli počítač selhal.
- TWF, HDF, PWF, OSF, RNF: Nezávislé režimy selhání počítače. Hodnota 1 označuje, že došlo k příslušnému režimu selhání.
V tomto scénáři nebudete používat všechny sloupce v datové sadě, protože buď neinformují predikci nebo obsahují nadbytečné informace.
Vzhledem k tomu, že chcete mít možnost předpovědět, jestli počítač selže nebo ne, je sloupec Selhání počítače popiskem. V Tvůrci modelů můžete pro funkce použít data z ID produktu, typu a různých sloupců senzorů.
I když jsou režimy selhání užitečné při diagnostice původní příčiny selhání, nejsou užitečné pro váš případ použití. Důvodem je, že chcete zjistit, jestli se počítač nezdařil nebo ne. Podobné informace jsou navíc zachyceny sloupcem Selhání počítače. Tyto sloupce tedy můžete ignorovat.
Pokračujte k další lekci a zkontrolujte své znalosti o scénářích, prostředích a přípravě dat.