Volba scénáře a příprava dat

8 min

V této lekci se dozvíte o výběru scénáře, výběru trénovacího prostředí a přípravě dat na trénování v Tvůrci modelů.

Zahájení procesu trénování

Pokud chcete zahájit proces trénování, musíte do nové nebo existující aplikace .NET přidat novou položku modelu Učení počítače (ML.NET).

Tip

Přenositelnost je jednou z výhod, které vám knihovny tříd poskytují. Knihovny tříd usnadňují odkazování na všechny modely, které jsou součástí konzoly, plochy, webu a jakéhokoli jiného typu aplikace .NET. Do knihovny tříd doporučujeme přidat položky modelu Učení počítače (ML.NET).

Položka Machine Učení Model (ML.NET) přidá do projektu soubor s příponou .mbconfig. Soubory, které používají příponu .mbconfig , jsou konfigurační soubory Tvůrce modelů vytvořené ve formátu JSON. Tyto soubory umožňují:

Zadejte název modelu.
Spolupracujte s ostatními uživateli ve vašem týmu prostřednictvím správy zdrojového kódu.
Zachovat stav. Pokud v jakémkoli okamžiku v procesu trénování potřebujete zavřít Tvůrce modelů, váš stav se uloží a můžete si vybrat místo, kde jste skončili.

Zvolte scénář

Prvním krokem k trénování modelu strojového učení je rozhodování o tom, který scénář a úloha strojového učení jsou nejvhodnější vzhledem k tomu, co se snažíte předpovědět.

Co je scénář?

Scénář popisuje problém, který se pokoušíte vyřešit pomocí dat. Mezi běžné scénáře patří ty, které jsou uvedené v předchozí lekci:

Kategorizace dat: Uspořádejte příspěvky podle témat.
Předpověď číselné hodnoty: Odhad ceny domu
Seskupení položek s podobnými vlastnostmi: Segmentace zákazníků
Klasifikace obrázků: Označte obrázek na základě jeho obsahu.
Doporučené položky: Doporučte filmy.
Detekce objektů na obrázku: Rozpoznává chodce a jízdní kola v průsečíku.

Scénáře se mapují na úlohy strojového učení. Úloha strojového učení je typ předpovědi nebo odvozování na základě problému nebo otázky, která se ptá, a dostupných dat.

Úlohy strojového učení obvykle spadají do dvou kategorií:

Hlídané
Bez dozoru

Hlavním rozdílem mezi nimi je, jestli je popisek nebo hodnota, kterou se pokoušíte předpovědět, známá nebo ne.

U úkolů pod dohledem je popisek známý. Mezi příklady úloh strojového učení pod dohledem patří:

Klasifikace
- Binární (dvě kategorie)
- Vícetřídy (dvě nebo více kategorií)
- Obrázek
Regrese

U úkolů bez dohledu je popisek neznámý. Mezi příklady úloh strojového učení bez supervize patří:

Clustering
Detekce anomálií

Podporované scénáře v Tvůrci modelů

Tvůrce modelů podporuje následující scénáře, které se mapují na úlohy strojového učení:

Scénář	Úloha strojového učení	Případ použití
Klasifikace dat	Binární a vícetřídová klasifikace	Uspořádejte články podle tématu.
Predikce hodnot	lineární regrese	Predikujte cenu domu na základě vlastností domu.
Klasifikace obrázku	Klasifikace obrázků (hluboké učení)	Uspořádejte obrázky podle druhů zvířat na základě obsahu obrázku.
Doporučení	Doporučení	Doporučte filmy na základě předvoleb podobných uživatelů.
Detekce objektů	Rozpoznávání objektů (hluboké učení)	Identifikace fyzického poškození na obrázku

Volba scénáře prediktivní údržby

V závislosti na tom, jak vaše data vypadají, je možné problém prediktivní údržby modelovat prostřednictvím různých úloh. V případě použití je popisek binární hodnotou (0 nebo 1), která popisuje, jestli je počítač poškozený nebo ne, je vhodný scénář klasifikace dat.

Volba prostředí

Teď, když jste vybrali klasifikaci dat, je čas zvolit prostředí, ve kterém chcete vytrénovat model strojového učení. Prostředí popisují výpočetní prostředky, které použijete k trénování modelu strojového učení.

Podporovaná prostředí v Tvůrci modelů

Tvůrce modelů podporuje následující možnosti prostředí:

Scénář	Místní procesor	Místní GPU	Azure GPU
Klasifikace dat	✔️	❌	❌
Predikce hodnot	✔️	❌	❌
Klasifikace obrázku	✔️	✔️	✔️
Doporučení	✔️	❌	❌
Detekce objektů	❌	❌	✔️

V závislosti na vašem případu použití existují různé důvody, proč můžete zvolit místní prostředí nebo prostředí Azure.

Místní prostředí

Mezi důvody, proč byste mohli zvážit místní výpočetní prostředí, patří:

Školení místně vám nic nestojí, protože používáte prostředky počítače.
Nechcete, aby vaše data opustila počítač nebo datové centrum.

Prostředí Azure

Scénáře, jako je klasifikace obrázků a detekce objektů, jsou náročné na prostředky. Použití GPU může často urychlit proces trénování. Pokud nemáte GPU nebo počítač s dostatečným využitím procesoru nebo paměti RAM, může přesměrování procesu trénování do Azure tížit zatížení systému.

Načtení a příprava dat

S vybraným scénářem a trénovacím prostředím je čas načíst a připravit data.

Data jsou nejdůležitější komponentou pro vytváření modelů strojového učení. Proces načítání dat do Tvůrce modelů se skládá ze tří kroků:

Zvolte typ zdroje dat.
Zadejte umístění dat.
Zvolte účel sloupce.

Zvolte typ zdroje dat.

V závislosti na vašem scénáři Tvůrce modelů podporuje načítání dat z následujících zdrojů:

Soubory s oddělovači (čárka, středník a tabulátor)
Místní a vzdálené databáze SQL Serveru
Obrázky (.jpg a .png)

Zadejte umístění dat.

Po výběru typu zdroje dat musíte zadat umístění, kde je datová sada uložená. Toto umístění může být adresář, cesta k souboru nebo připojovací řetězec databáze. Závisí na scénáři a typu zdroje dat, který jste vybrali.

Když je zdroj dat vybraný v Tvůrci modelů, analyzuje data a snaží se identifikovat co nejlépe:

Názvy záhlaví a sloupců
Oddělovač sloupců
Datový typ sloupce
Účel sloupce
Oddělovače desetinných míst

Po načtení dat zobrazí Tvůrce modelů náhled některých prvků v datové sadě.

Výběr účelu sloupce

V závislosti na zvoleném scénáři budete muset definovat účel určitých sloupců. Ve scénářích, jako je klasifikace dat a predikce hodnot, budete muset zvolit, který ze sloupců je sloupec, který chcete předpovědět (popisek).

Ve výchozím nastavení se všechny ostatní sloupce, které nejsou popiskem, používají jako funkce. Funkce jsou sloupce používané jako vstupy k predikci popisku.

Pokročilé možnosti dat

Tvůrce modelů nabízí pokročilé možnosti dat, které vám umožní přizpůsobit způsob načítání dat. Tyto možnosti umožňují přizpůsobit nastavení týkající se sloupců a formátování datové sady.

U sloupců můžete zvolit následující nastavení:

Účel: Má být sloupec funkcí, popiskem nebo ignorován? Jako popisek můžete vybrat jenom jeden sloupec.
Datový typ: Jedná se o hodnotu s jednou přesností na plovoucí hodnotu, řetězec nebo logickou hodnotu?
Kategorická: Představuje sloupec kategorickou hodnotu (například: nízká, střední nebo vysoká)?

Pokud chcete formátovat data, můžete zvolit, jestli data obsahují záhlaví sloupců, oddělovač sloupců (čárka, středník nebo tabulátor) a typ oddělovače desetinných míst (tečka nebo čárka).

Principy datové sady prediktivní údržby

Datová sada použitá v tomto modulu je datová sada prediktivní údržby AI4I 2020. Tato syntetická datová sada odráží skutečná data prediktivní údržby zjištěná v odvětví. Skládá se z 10 000 datových bodů a 14 sloupců. Pochází z:

Vysvětlitelná umělá inteligence pro aplikace prediktivní údržby, Stephan Matzka, třetí mezinárodní konference o umělé inteligenci pro odvětví (AI4I 2020), 2020 (v tisku) a hostovaná v úložišti UCI Machine Učení – Dua, D. a Graff, C. (2019). UCI Machine Učení Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.

Tady je náhled toho, jak data vypadají:

UDI	ID produktu	Typ	Teplota vzduchu [K]	Teplota procesu [K]	Rychlost otáčení [ot/min]	Točivý moment [Nm]	Opotřebení nástroje [min]	Selhání počítače	TWF	HDF	PWF	OSF	RNF
0	M14860	M	298.1	308.6	1551	42.8	0	0	0	0	0	0	0
162	L47341	L	298.3	308.1	1412	52.3	218	0	0	0	0	1	0

Sloupce jsou definovány takto:

UDI: Index řádku.
ID produktu: Identifikátor produktu, který obsahuje kategorii typu produktu a sériové číslo specifické pro variantu.
Typ: Kategorie kvality produktu. Hodnoty jsou L (nízká; 50 % všech produktů), M (střední; 30 %) nebo H (vysoká; 20 %).
Teplota vzduchu [K], Teplota procesu [K], Rotační rychlost [rpm], Točivý moment [Nm], Opotřebení nástrojů [min]: Hodnoty shromážděné ze senzorů.
Selhání počítače: Binární popisek (0 nebo 1), který označuje, jestli počítač selhal.
TWF, HDF, PWF, OSF, RNF: Nezávislé režimy selhání počítače. Hodnota 1 označuje, že došlo k příslušnému režimu selhání.

V tomto scénáři nebudete používat všechny sloupce v datové sadě, protože buď neinformují predikci nebo obsahují nadbytečné informace.

Vzhledem k tomu, že chcete mít možnost předpovědět, jestli počítač selže nebo ne, je sloupec Selhání počítače popiskem. V Tvůrci modelů můžete pro funkce použít data z ID produktu, typu a různých sloupců senzorů.

I když jsou režimy selhání užitečné při diagnostice původní příčiny selhání, nejsou užitečné pro váš případ použití. Důvodem je, že chcete zjistit, jestli se počítač nezdařil nebo ne. Podobné informace jsou navíc zachyceny sloupcem Selhání počítače. Tyto sloupce tedy můžete ignorovat.

Pokračujte k další lekci a zkontrolujte své znalosti o scénářích, prostředích a přípravě dat.

Pokračovat