Glosář pro strojové učení s důležitými termíny

Následující seznam obsahuje kompilaci důležitých pojmů strojového učení, které jsou užitečné při vytváření vlastních modelů v ML.NET.

Přesnost

V klasifikaci je přesnost počet správně klasifikovaných položek vydělený celkovým počtem položek v testovací sadě. Rozsahy od 0 (nejméně přesné) do 1 (nejpřesnější). Přesnost je jednou z metrik vyhodnocení výkonu modelu. Zvažte to ve spojení s přesností, úplností a skóre F.

Oblast pod křivkou (AUC)

V binární klasifikaci se jedná o metriku vyhodnocení, která je hodnotou oblasti pod křivkou, která vykresluje míru pravdivě pozitivních výsledků (na ose y) proti míře falešně pozitivních výsledků (na ose x). Rozsahy od 0,5 (nejhorší) do 1 (nejlepší). Označuje se také jako oblast pod křivkou ROC, tj. Další informace najdete v článku Provozní charakteristika přijímače na Wikipedii.

Binární klasifikace

Klasifikační případ, kdy je popisek pouze jednou ze dvou tříd. Další informace najdete v části Binární klasifikace v tématu Úlohy strojového učení .

Kalibrace

Kalibrace je proces mapování nezpracovaného skóre na členství ve třídě pro binární a vícetřídní klasifikaci. Některé ML.NET školitele mají příponu NonCalibrated . Tyto algoritmy vytvářejí nezpracované skóre, které se pak musí namapovat na pravděpodobnost třídy.

Katalog

V ML.NET je katalog kolekce rozšiřujících funkcí seskupených podle společného účelu.

Například každá úloha strojového učení (binární klasifikace, regrese, řazení atd.) má katalog dostupných algoritmů strojového učení (školitelů). Katalog pro školitele binární klasifikace je: BinaryClassificationCatalog.BinaryClassificationTrainers.

Klasifikace

Když se data používají k predikci kategorie, nazývá se úloha strojového učení pod dohledem klasifikace. Binární klasifikace označuje predikci pouze dvou kategorií (například klasifikaci obrázku jako obrázku "kočky" nebo "psa"). Klasifikace s více třídami označuje predikci více kategorií (například při klasifikaci obrázku jako obrázku konkrétního psa).

Koeficient stanovení

V regresi se jedná o metriku vyhodnocení, která označuje, jak dobře data odpovídají modelu. Rozsahy od 0 do 1. Hodnota 0 znamená, že data jsou náhodná nebo jinak nemůžou být pro model vhodná. Hodnota 1 znamená, že model přesně odpovídá datům. To se často označuje jako r2, R2 nebo r-čtvercové.

Data

Data jsou centrální pro všechny aplikace strojového učení. V ML.NET jsou data reprezentována IDataView objekty. Objekty zobrazení dat:

  • jsou tvořené sloupci a řádky.
  • se líně vyhodnocují, to znamená, že data načítají pouze v případě, že je operace volá.
  • obsahují schéma, které definuje typ, formát a délku jednotlivých sloupců.

Odhad

Třída v ML.NET, která implementuje IEstimator<TTransformer> rozhraní.

Odhadce je specifikace transformace (transformace přípravy dat i transformace trénování modelu strojového učení). Odhadce je možné zřetěznit do kanálu transformací. Parametry estimátoru nebo kanálu estimátorů se zjistí při Fit zavolání. Výsledkem Fit je Transformátor.

Metoda rozšíření

Metoda .NET, která je součástí třídy, ale je definována mimo třídu. Prvním parametrem rozšiřující metody je statický this odkaz na třídu, do které patří rozšiřující metoda.

Rozšiřující metody se často používají v ML.NET k vytváření instancí estimátorů.

Funkce

Měřitelná vlastnost měřeného jevu, obvykle číselná (dvojitá) hodnota. Více funkcí se označuje jako vektor funkce a obvykle se ukládá jako double[]. Funkce definují důležité charakteristiky měřeného jevu. Další informace najdete v článku Funkce na Wikipedii.

Příprava atributů

Příprava funkcí je proces, který zahrnuje definování sady funkcí a vývoj softwaru, který vytváří vektory funkcí z dostupných dat o jevech, tj. extrakci funkcí. Další informace najdete v článku o inženýrství funkcí na Wikipedii.

Skóre F

V klasifikaci se jedná o metriku vyhodnocení, která vyrovnává přesnost a úplnost.

Hyperparametr

Parametr algoritmu strojového učení. Mezi příklady patří počet stromů, které se mají naučit v rozhodovací doménové struktuře, nebo velikost kroku v algoritmu gradientního sestupu. Hodnoty hyperparametrů se nastavují před trénováním modelu a řídí proces hledání parametrů predikční funkce, například srovnávacích bodů v rozhodovacím stromu nebo váhy v lineárním regresním modelu. Další informace najdete v článku Hyperparameter na Wikipedii.

Popisek

Prvek, který se má predikovat pomocí modelu strojového učení. Například plemena psa nebo budoucí cena akcií.

Ztráta protokolu

V klasifikaci se jedná o metriku hodnocení, která charakterizuje přesnost klasifikátoru. Čím menší ztráta protokolu je, tím přesnější klasifikátor je.

Ztrátová funkce

Ztrátová funkce je rozdíl mezi hodnotami trénovacího popisku a predikcí modelu. Parametry modelu se odhadují minimalizací funkce ztráty.

Různé školitele je možné nakonfigurovat s různými funkcemi ztráty.

Střední absolutní chyba (MAE)

V regresi se jedná o metriku vyhodnocení, která je průměrem všech chyb modelu, kde chyba modelu je vzdálenost mezi předpovězenou hodnotou popisku a správnou hodnotou popisku.

Modelování

Tradičně jsou to parametry prediktivní funkce. Například váhy v modelu lineární regrese nebo body rozdělení v rozhodovacím stromu. V ML.NET obsahuje model všechny informace potřebné k predikci popisku objektu domény (například obrázek nebo text). To znamená, že ML.NET modely zahrnují nezbytné kroky pro funkci a parametry funkce předpovědi.

Klasifikace s více třídami

Klasifikační případ, kdy je popisek jednou ze tří nebo více tříd. Další informace najdete v části Klasifikace s více třídami v tématu Úlohy strojového učení .

N-gram

Schéma extrakce funkcí pro textová data: Jakákoli posloupnost N slov se změní na hodnotu funkce .

Normalizace

Normalizace je proces škálování dat s plovoucí desetinou čárkou na hodnoty mezi 0 a 1. Mnoho trénovacích algoritmů používaných v ML.NET vyžaduje normalizaci dat vstupních funkcí. ML.NET poskytuje řadu transformací pro normalizaci.

Číselný vektor funkce

Vektor funkce , který se skládá pouze z číselných hodnot. Je to podobné jako double[].

Kanál

Všechny operace potřebné k přizpůsobení modelu datové sadě Kanál se skládá z importu dat, transformace, funkce a výukových kroků. Po natrénování se kanál změní na model.

Přesnost

V klasifikaci je přesnost třídy počet správně předpovězených položek, které patří do této třídy, děleno celkovým počtem položek, u které se předpokládá, že patří do třídy.

Recall

Při klasifikaci je úplnost třídy počet správně předpovězených položek, které patří do této třídy, děleno celkovým počtem položek, které skutečně patří do třídy.

Regularizace

Regularizace penalizuje lineární model za to, že je příliš komplikovaný. Existují dva typy regularizace:

  • $L_1$ regularizace nuly váhy pro nevýznamné funkce. Velikost uloženého modelu se může po tomto typu regularizace zmenšit.
  • $L_2$ regularizace minimalizuje rozsah hmotnosti pro nevýznamné funkce. Jedná se o obecnější proces, který je méně citlivý na odlehlé hodnoty.

Regrese

Úloha strojového učení pod dohledem , kde výstup je skutečná hodnota, například double. Mezi příklady patří predikce cen akcií. Další informace najdete v části Regrese tématu Úlohy strojového učení .

Relativní absolutní chyba

V regresi se jedná o metriku vyhodnocení, která je součtem všech absolutních chyb vydělený součtem vzdáleností mezi správnými hodnotami popisku a průměrem všech správných hodnot popisků.

Relativní kvadratická chyba

V regresi se jedná o metriku vyhodnocení, která je součtem všech kvadratické absolutní chyby dělené součtem čtvercových vzdáleností mezi správnými hodnotami popisku a průměrem všech správných hodnot popisků.

Kořen střední kvadratická chyba (RMSE)

V regresi se jedná o metriku vyhodnocení, která je druhou odmocninou průměru druhých mocnin chyb.

Vyhodnocování

Bodování je proces aplikování nových dat na trénovaný model strojového učení a generování předpovědí. Bodování se také označuje jako odvozování. V závislosti na typu modelu může být skóre nezpracovaná hodnota, pravděpodobnost nebo kategorie.

Strojové učení pod dohledem

Podtřída strojového učení, ve které požadovaný model predikuje popisek pro dosud neviditelná data. Mezi příklady patří klasifikace, regrese a strukturovaná predikce. Další informace najdete v článku Učení se supervizí na Wikipedii.

Školení

Proces identifikace modelu pro danou trénovací sadu dat. U lineárního modelu to znamená vyhledání vah. U stromu to zahrnuje identifikaci bodů rozdělení.

Transformátor

Třída ML.NET, která implementuje ITransformer rozhraní .

Transformátor transformuje jedno IDataView v druhé. Transformátor se vytvoří trénováním estimátora nebo kanálu estimátoru.

Strojové učení bez supervize

Podtřída strojového učení, ve které požadovaný model najde v datech skrytou (nebo latentní) strukturu. Mezi příklady patří clustering, modelování témat a redukce počtu dimenzí. Další informace najdete v článku o učení bez supervize na Wikipedii.