Gépi tanulási szószedet a fontos kifejezésekről

Az alábbi lista olyan fontos gépi tanulási kifejezéseket tartalmaz, amelyek hasznosak az egyéni modellek ML.NET való létrehozásakor.

Pontosság

A besorolásban a pontosság a helyesen besorolt elemek száma a tesztkészletben lévő elemek teljes számával osztva. A tartomány 0 (legkevésbé pontos) és 1 (legpontosabb). A pontosság a modell teljesítményének egyik kiértékelési mérőszáma. Vegye figyelembe a pontosságot, a visszahívást és az F-pontszámot.

A görbe alatti terület (AUC)

A bináris besorolásban egy kiértékelési metrika, amely a görbe alatti terület értéke, amely a valódi pozitívok arányát ábrázolja (az y tengelyen) a hamis pozitívok arányával (az x tengelyen). A tartomány 0,5 (legrosszabb) és 1 (legjobb). Más néven az ROC-görbe alatti terület, azaz a vevő működési jellemző görbéje. További információ: Receiver operating characteristic (Vevő működési jellemzői ) című cikk a Wikipédián.

Bináris besorolás

Olyan besorolási eset, amelyben a címke két osztályból csak egy. További információt a Gépi tanulási feladatok témakör Bináris besorolás című szakaszában talál.

Kalibrációs

A kalibráció a nyers pontszám osztálytagságra való leképezésének folyamata bináris és többosztályos besorolás esetén. Néhány ML.NET oktató utótagja NonCalibrated van. Ezek az algoritmusok nyers pontszámot hoznak létre, amelyet aztán le kell képezni egy osztály valószínűségére.

Katalógus

A katalógus ML.NET bővítményfüggvények gyűjteménye, közös célok szerint csoportosítva.

Például minden gépi tanulási feladat (bináris besorolás, regresszió, rangsorolás stb.) rendelkezik az elérhető gépi tanulási algoritmusok (oktatók) katalógusával. A bináris besorolási oktatók katalógusa a következő: BinaryClassificationCatalog.BinaryClassificationTrainers.

Besorolás

Ha az adatokat egy kategória előrejelzésére használják, a felügyelt gépi tanulási feladatot besorolásnak nevezzük. A bináris besorolás csak két kategória előrejelzésére utal (például egy kép "macska" vagy "kutya" képeként való besorolására). A többosztályos besorolás több kategória előrejelzésére utal (például amikor egy képet egy adott kutyafajta képeként sorol be).

A meghatározási együttható

A regresszióban egy kiértékelési metrika, amely azt jelzi, hogy az adatok mennyire illenek a modellhez. 0 és 1 közötti tartomány. A 0 érték azt jelenti, hogy az adatok véletlenszerűek, vagy más módon nem illenek a modellhez. Az 1 érték azt jelenti, hogy a modell pontosan egyezik az adatokkal. Ezt gyakran r2-nek, R2-nek vagy r-négyzetnek is nevezik.

Adatok

Az adatok minden gépi tanulási alkalmazás számára központi szerepet bevetnek. A ML.NET az adatokat objektumok jelölik IDataView . Adatnézet-objektumok:

  • oszlopokból és sorokból állnak
  • lazán vannak kiértékelve, azaz csak akkor töltik be az adatokat, amikor egy művelet meghívja őket
  • olyan sémát tartalmaz, amely meghatározza az egyes oszlopok típusát, formátumát és hosszát

Becslő

A ML.NET osztálya, amely megvalósítja a IEstimator<TTransformer> felületet.

A becslő egy átalakítás specifikációja (adatelőkészítési átalakítás és gépi tanulási modell betanítása átalakítás). A becslők összefűzhetők átalakítások folyamatába. A becslők vagy becslők folyamatának paramétereit a rendszer a meghívásakor tanulja meg Fit . Ennek eredménye Fit egy transzformátor.

Bővítménymetódus

.NET-metódus, amely egy osztály része, de az osztályon kívül van definiálva. A bővítménymetódus első paramétere egy statikus this hivatkozás arra az osztályra, amelyhez a bővítménymetódus tartozik.

A bővítménymetelyeket széles körben használják a ML.NET a becslők példányainak létrehozásához.

Szolgáltatás

A mért jelenség mérhető tulajdonsága, általában numerikus (dupla) érték. Több jellemzőt jellemzővektornak nevezünk, és általában a néven vannak tárolva double[]. A jellemzők határozzák meg a mért jelenség fontos jellemzőit. További információt a Wikipédián található Funkció című cikkben talál.

Jellemzőkiemelés

A jellemzőkiemelés az a folyamat, amely magában foglalja egy funkciókészlet meghatározását és olyan szoftverek fejlesztését, amelyek funkcióvektorokat állítanak elő a rendelkezésre álló jelenségadatokból, azaz a jellemzők kinyeréséből. További információt a Wikipédián a Funkciófejlesztés című cikkben talál.

F-pontszám

A besorolásban egy kiértékelési metrika, amely kiegyensúlyozza a pontosságot és a visszahívást.

Hiperparaméter

Egy gépi tanulási algoritmus paramétere. Ilyen például a döntési erdőben tanulni kívánt fák száma vagy a lépésméret egy gradiens ereszkedési algoritmusban. A hiperparaméterek értékeit a rendszer a modell betanítása előtt állítja be, és szabályozza az előrejelzési függvény paramétereinek megkeresésének folyamatát, például egy döntési fa összehasonlítási pontjait vagy a lineáris regressziós modell súlyait. További információ: Hyperparameter (Hiperparaméter ) című cikk a Wikipédián.

Címke

A gépi tanulási modellel előrejelezendő elem. Például a kutyafajta vagy egy jövőbeli részvényár.

Naplóvesztés

A besorolásban egy kiértékelési metrika, amely az osztályozó pontosságát jellemzi. Minél kisebb a naplóvesztés, annál pontosabb az osztályozó.

Loss függvény

A veszteségfüggvény a betanítási címke értékei és a modell előrejelzése közötti különbség. A modell paraméterei a veszteségfüggvény minimalizálásával becsülhetőek meg.

A különböző oktatók különböző veszteségfüggvényekkel konfigurálhatók.

Átlagos abszolút hiba (MAE)

A regresszióban egy kiértékelési metrika, amely az összes modellhiba átlaga, ahol a modellhiba az előrejelzett címkeérték és a helyes címkeérték közötti távolság.

Modellezés

Az előrejelzési függvény paraméterei hagyományosan. Például egy lineáris regressziós modell súlyozása vagy egy döntési fa felosztási pontjai. A ML.NET a modell tartalmazza a tartományi objektum címkéjének előrejelzéséhez szükséges összes információt (például képet vagy szöveget). Ez azt jelenti, hogy ML.NET modellek tartalmazzák a szükséges featurizációs lépéseket, valamint az előrejelzési függvény paramétereit.

Többosztályos besorolás

Olyan besorolási eset, amelyben a címke három vagy több osztályból egy. További információt a Gépi tanulási feladatok témakör Többosztályos besorolás című szakaszában talál.

N-gram

A szöveges adatok funkciókinyerési sémája: az N szavak sorozata funkcióértékké válik.

Normalizálás

A normalizálás a lebegőpontos adatok 0 és 1 közötti értékekre való skálázásának folyamata. A ML.NET használt betanítási algoritmusok közül sok megköveteli a bemeneti jellemzők adatainak normalizálását. ML.NET átalakítások sorozatát biztosítja a normalizáláshoz

Numerikus jellemzővektor

Egy jellemzővektor , amely csak numerikus értékekből áll. Ez a példához double[]hasonló.

Folyamat

A modell adathalmazhoz való illesztéséhez szükséges összes művelet. A folyamatok adatimportálásból, átalakításból, featurizációból és tanulási lépésekből áll. A folyamatok betanítása után modellté válik.

Pontosság

A besorolásban az osztály pontossága az adott osztályhoz tartozóként helyesen előrejelzett elemek száma, elosztva az osztályhoz tartozóként előrejelzett elemek teljes számával.

Recall

A besorolásban az osztály visszahívása az adott osztályhoz tartozóként helyesen előrejelzett elemek száma, elosztva az osztályhoz ténylegesen tartozó elemek teljes számával.

Rendszeresítés

A rendszeresítés a túl bonyolult lineáris modellt bünteti. A rendszerezésnek két típusa van:

  • $L_1$ reginálási nulla súlyt a jelentéktelen funkciókhoz. Az ilyen típusú rendszeresítés után a mentett modell mérete kisebb lehet.
  • $L_2$ rendszeresítés minimálisra csökkenti a súlytartományt a jelentéktelen funkciókhoz. Ez egy általánosabb folyamat, és kevésbé érzékeny a kiugró értékekre.

Regresszió

Felügyelt gépi tanulási feladat, ahol a kimenet valós érték, például dupla. Ilyen például a részvényárak előrejelzése. További információ: A Gépi tanulási feladatok témakör Regressziós szakasza.

Relatív abszolút hiba

A regresszióban egy kiértékelési metrika, amely az összes abszolút hiba összege, elosztva a helyes címkeértékek és a helyes címkeértékek átlaga közötti távolságok összegével.

Relatív négyzetes hiba

A regresszióban egy kiértékelési metrika, amely az összes négyzetes abszolút hiba összege, elosztva a helyes címkeértékek és a helyes címkeértékek átlaga közötti négyzetes távolságok összegével.

Középérték négyzetes hiba gyökere (RMSE)

A regresszióban egy kiértékelési metrika, amely a hibák négyzeteinek átlagának négyzetgyöke.

Pontozás

A pontozás az új adatok betanított gépi tanulási modellre való alkalmazásának és az előrejelzések generálásának folyamata. A pontozást következtetésnek is nevezik. A modell típusától függően a pontszám lehet nyers érték, valószínűség vagy kategória.

Felügyelt gépi tanulás

A gépi tanulás egy alosztálya, amelyben a kívánt modell előrejelzi a még nem látott adatok címkéjét. Ilyen például a besorolás, a regresszió és a strukturált előrejelzés. További információt a Wikipédián található Felügyelt tanulás című cikkben talál.

Oktatás

Egy adott betanítási adatkészlet modelljének azonosításának folyamata. Lineáris modell esetén ez azt jelenti, hogy meg kell találni a súlyokat. Egy fa esetében a felosztási pontok azonosítására van szükség.

Transzformátor

Egy ML.NET osztály, amely implementálja az interfészt ITransformer .

A transzformátor átalakítja az egyiket IDataView egy másikba. A transzformátor egy becslő vagy egy becslő folyamat betanításával jön létre.

Nem felügyelt gépi tanulás

A gépi tanulás alosztálya, amelyben a kívánt modell rejtett (vagy látens) struktúrát talál az adatokban. Ilyen például a fürtözés, a témakörmodellezés és a dimenziócsökkentés. További információ: Nem felügyelt tanulás című cikk a Wikipédián.