Válassza ki a forgatókönyvet, és készítse elő az adatokat

8 perc

Ebben a leckében megismerkedhet egy forgatókönyv kiválasztásával, egy betanítási környezet kiválasztásával és az adatok a Model Builderben való betanításhoz való előkészítésével.

A betanítási folyamat elindítása

A betanítási folyamat elindításához hozzá kell adnia egy új machine Tanulás Model (ML.NET) elemet egy új vagy meglévő .NET-alkalmazáshoz.

Tipp.

A hordozhatóság az osztálykódtárak egyik előnye. Az osztálykódtárak segítségével egyszerűen hivatkozhat a konzolról, az asztalról, a webről és a .NET-alkalmazások bármely más típusáról az annak részét képező modellekre. Javasoljuk, hogy vegyen fel gépi Tanulás modell (ML.NET) elemeket egy osztálytárba.

A Machine Tanulás Model (ML.NET) elem .mbconfig kiterjesztésű fájlt ad hozzá a projekthez. A .mbconfig kiterjesztést használó fájlok a JSON-ban létrehozott Model Builder konfigurációs fájlok. Ezek a fájlok lehetővé teszik a következők használatát:

Adjon nevet a modellnek.
Együttműködhet a csapat más tagjaival a forrásvezérlőn keresztül.
Állapot megőrzése. Ha a betanítási folyamat bármely pontján be kell zárnia a Model Buildert, a rendszer menti az állapotát, és ott folytathatja, ahol abbahagyta.

Válasszon egy forgatókönyvet

A gépi tanulási modellek betanításának első lépése annak eldöntése, hogy melyik forgatókönyv és gépi tanulási feladat a legmegfelelőbb, figyelembe véve, hogy mit próbál előrejelezni.

Mi az a forgatókönyv?

Egy forgatókönyv az adatok használatával megoldani kívánt problémát írja le. A gyakori forgatókönyvek közé tartoznak az előző leckében felsoroltak:

Adatok kategorizálása: Hírek rendezése témakör szerint.
Numerikus érték előrejelzése: Egy lakás árának becslése.
Hasonló jellemzőkkel rendelkező elemek csoportosítása: Ügyfelek szegmentálása.
Képek osztályozása: Kép címkézése a tartalma alapján.
Ajánlott elemek: Filmek ajánlása.
Objektumok észlelése egy képen: Gyalogosok és kerékpárok észlelése egy kereszteződésben.

A forgatókönyvek gépi tanulási feladatokra képeznek le. A gépi tanulási feladat az előrejelzés vagy következtetés típusa a feltett probléma vagy kérdés és a rendelkezésre álló adatok alapján.

A gépi tanulási feladatok általában két kategóriába sorolhatók:

Felügyelt
Felügyelet nélkül

A fő különbség köztük az, hogy a címke vagy az előrejelezni kívánt érték ismert-e vagy sem.

Felügyelt feladatok esetén a címke ismert. Felügyelt gépi tanulási feladatok például a következők:

Osztályozás
- Bináris (két kategória)
- Többosztályos (két vagy több kategória)
- Image
Regresszió

Nem felügyelt tevékenységek esetén a címke ismeretlen. A nem felügyelt gépi tanulási feladatok például a következők:

Fürtözés
Rendellenességek észlelése

Támogatott forgatókönyvek a Model Builderben

A Model Builder a következő forgatókönyveket támogatja, amelyek gépi tanulási feladatokra képeznek le:

Eset	Gépi tanulási feladat	Use case
Az adatok besorolása	Bináris és többosztályos besorolás	Témakörök szerinti rendezés.
Érték előrejelzése	Lineáris regresszió	Előrejelezheti az otthon árát az otthon jellemzői alapján.
Képbesorolás	Képbesorolás (mélytanulás)	Rendszerezze a képeket állatfajok szerint a kép tartalma alapján.
Recommendation	Recommendation	Filmek ajánlása a hasonló felhasználók preferenciái alapján.
Objektumészlelés	Objektumészlelés (mélytanulás)	A képen látható fizikai sérülések azonosítása.

Forgatókönyv kiválasztása prediktív karbantartáshoz

Az adatok megjelenésétől függően a prediktív karbantartási probléma különböző feladatokon keresztül modellezhető. A használati eset esetében, mivel a címke bináris érték (0 vagy 1), amely leírja, hogy egy gép meghibásodott-e vagy sem, az adatbesorolási forgatókönyv megfelelő.

A környezet kiválasztása

Most, hogy kiválasztotta az adatbesorolást, itt az ideje kiválasztani azt a környezetet, ahol be szeretné tanítani a gépi tanulási modellt. A környezetek a gépi tanulási modell betanítása során használni kívánt számítási erőforrásokat írják le.

Támogatott környezetek a Model Builderben

A Model Builder a következő környezeti beállításokat támogatja:

Eset	Helyi PROCESSZOR	Helyi GPU	Azure GPU
Az adatok besorolása	✔️	❌	❌
Érték előrejelzése	✔️	❌	❌
Képbesorolás	✔️	✔️	✔️
Recommendation	✔️	❌	❌
Objektumészlelés	❌	❌	✔️

A használati esettől függően számos oka lehet annak, hogy miért érdemes helyi vagy Azure-környezetet választania.

Helyi környezetek

A helyi számítási környezetek megfontolandó okai a következők:

A helyi betanítás nem kerül semmibe, mert a számítógép erőforrásait használja.
Nem szeretné, hogy az adatok elhagyják a számítógépet vagy az adatközpontot.

Azure-környezetek

Az olyan forgatókönyvek, mint a képbesorolás és az objektumészlelés, erőforrásigényesek. A GPU használata gyakran felgyorsítja a betanítási folyamatot. Ha nem rendelkezik GPU-val vagy számítógéppel, amely rendelkezik elegendő CPU-val vagy RAM-mal, a betanítási folyamat Azure-ba való kiszervezésével könnyebb lesz a rendszer terhelése.

Adatok betöltése és előkészítése

A forgatókönyv és a betanítási környezet kiválasztásával ideje betölteni és előkészíteni az adatokat.

Az adatok a gépi tanulási modellek készítésének legfontosabb összetevői. Az adatok Model Builderbe való betöltésének folyamata három lépésből áll:

Válassza ki az adatforrás típusát.
Adja meg az adatok helyét.
Válassza ki az oszlop célját.

Az adatforrás típusának kiválasztása

A modellkészítő a forgatókönyvtől függően az alábbi forrásokból támogatja az adatok betöltését:

Tagolt fájlok (vessző, pontosvessző és tabulátor)
Helyi és távoli SQL Server-adatbázisok
Képek (.jpg és .png)

Adja meg az adatok helyét

Miután kiválasztotta az adatforrás típusát, meg kell adnia az adathalmaz tárolási helyét. Ez a hely lehet könyvtár, fájl elérési útja vagy adatbázis-kapcsolati sztring. Ez a kiválasztott forgatókönyvtől és adatforrástípustól függ.

Amikor kiválaszt egy adatforrást a Model Builderben, elemzi az adatokat, és mindent megtesz annak érdekében, hogy azonosítsa a következőket:

Fejlécek és oszlopnevek
Oszlopelválasztó
Oszlop adattípusai
Oszlop rendeltetése
Decimális elválasztójelek

Az adatok betöltése után a Model Builder megjeleníti az adathalmaz egyes elemeinek előnézetét.

Oszlop céljának kiválasztása

A választott forgatókönyvtől függően meg kell határoznia bizonyos oszlopok célját. Az olyan helyzetekben, mint az adatbesorolás és az érték előrejelzése, ki kell választania, hogy melyik oszlop az előrejelezni kívánt oszlop (címke).

Alapértelmezés szerint minden más oszlop, amely nem a címke, funkcióként lesz használva. A funkciók olyan oszlopok, amelyek bemenetként szolgálnak a címke előrejelzéséhez.

Speciális adatbeállítások

Az adatok betöltésének testreszabásához a Model Builder speciális adatbeállításokat biztosít. Ezek a beállítások lehetővé teszik az oszlopok és adathalmazok formázására vonatkozó beállítások testreszabását.

Oszlopok esetén a következő beállításokat választhatja:

Cél: Az oszlopnak funkciónak kell lennie, címkének kell lennie, vagy figyelmen kívül kell hagynia? Címkeként csak egy oszlopot jelölhet ki.
Adattípus: Az érték egy pontosságú lebegőpontos érték, sztring vagy logikai érték?
Kategorikus: Az oszlop kategorikus értéket jelöl (például alacsony, közepes vagy magas)?

Az adatok formázásához megadhatja, hogy az adatok oszlopfejléceket, az oszlopelválasztót (vesszőt, pontosvesszőt vagy tabulátort) és a tizedeselválasztó típusát (pont vagy vessző) tartalmazzák-e.

A prediktív karbantartási adatkészlet ismertetése

A modulban használt adatkészlet az AI4I 2020 Prediktív karbantartási adatkészlet. Ez a szintetikus adatkészlet az iparágban tapasztalt valós prediktív karbantartási adatokat tükrözi. 10 000 adatpontból és 14 oszlopból áll. A következő forrásból származik:

Magyarázható mesterséges intelligencia prediktív karbantartási alkalmazásokhoz, Stephan Matzka, harmadik nemzetközi konferencia a mesterséges intelligenciáról az iparágak számára (AI4I 2020), 2020 (sajtóban), és az UCI Machine Tanulás Adattárban - Dua, D. és Graff, C. (2019). UCI Machine Tanulás Adattár http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.

Íme egy előnézet az adatok megjelenéséről:

UDI	Termékazonosító	Type	Levegő hőmérséklete [K]	Folyamat hőmérséklete [K]	Forgási sebesség [rpm]	Nyomaték [Nm]	Szerszámkopás [min]	Gépi hiba	TWF	HDF	PWF	OSF	RNF
1	M14860	M	298.1	308.6	1551	42.8	0	0	0	0	0	0	0
162	L47341	L	298.3	308.1	1412	52.3	218	1	0	0	0	1	0

Az oszlopok a következőképpen vannak definiálva:

UDI: A sor indexe.
Termékazonosító: Termékazonosító, amely egy terméktípus-kategóriát és egy variánsspecifikus sorozatszámot tartalmaz.
Típus: Termékminőségi kategória. Az értékek az L (alacsony; az összes termék 50%-a), M (közepes; 30%), vagy H (magas; 20%).
Levegő hőmérséklete [K], Folyamat hőmérséklete [K], Forgási sebesség [rpm], Nyomaték [Nm], Szerszámkopás [min]: Érzékelőktől gyűjtött értékek.
Géphiba: Bináris címke (0 vagy 1), amely jelzi, hogy a gép meghibásodott-e.
TWF, HDF, PWF, OSF, RNF: Független géphibás üzemmódok. Az 1 érték azt jelzi, hogy a megfelelő hibamód történt.

Ebben a forgatókönyvben nem fogja használni az adathalmaz összes oszlopát, mert vagy nem tájékoztatják az előrejelzést, vagy redundáns információkat tartalmaznak.

Mivel meg szeretné tudni előrejelezni, hogy egy gép meghibásodik-e vagy sem, a Gép meghibásodása oszlop a címke. A Model Builder szolgáltatásban a termékazonosító, a típus és a különböző érzékelőoszlopok adatait használhatja.

Bár a hibamódok hasznosak a hiba kiváltó okának diagnosztizálásában, a használati esethez nem hasznosak. Ennek az az oka, hogy csak azt szeretné tudni, hogy egy gép meghibásodott-e vagy sem. Emellett a gép meghibásodási oszlopa már rögzítette a hasonló adatokat. Így figyelmen kívül hagyhatja ezeket az oszlopokat.

Folytassa a következő leckével, és ellenőrizze a forgatókönyvekkel, környezetekkel és adatelőkészítéssel kapcsolatos tudását.

Folytatás