Share via


Kétosztályos logisztikai regresszió

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Létrehoz egy kétosztályos logisztikai regressziós modellt

Kategória: Machine Learning / Modell inicializálása / Besorolás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Kétosztályos logisztikai regresszió modulja egy logisztikai regressziós modell létrehozásához, amely két (és csak két) eredmény előrejelzésére használható.

A logisztikai regresszió egy jól ismert statisztikai technika, amely számos probléma modellezését lehetővé tért. Ez az algoritmus felügyelt tanulási módszer ; Ezért meg kell adnia egy adatkészletet, amely már tartalmazza a modell betanítása eredményeit.

További információk a logisztikai regresszióról

A logisztikai regresszió egy jól ismert statisztikai módszer, amely az eredmény valószínűségének előrejelzésére használatos, és különösen népszerű a besorolási feladatokhoz. Az algoritmus egy esemény előfordulásának valószínűségét egy logisztikai függvényhez illeszti az adatokkal. Az implementációval kapcsolatos részletekért tekintse meg a Műszaki megjegyzések szakaszt .

Ebben a modulban a besorolási algoritmus dichotóm vagy bináris változókra van optimalizálva. Ha több eredményt kell besorolni, használja a Multiclass Logistic Regression (Többosztályos logisztikai regresszió) modult .

A logisztikai regresszió Two-Class konfigurálása

A modell betanítása érdekében meg kell adnia egy címkét vagy osztályoszlopot tartalmazó adatkészletet. Mivel ez a modul kétosztályos problémákra szolgál, a címke vagy az osztály oszlopának pontosan két értéket kell tartalmaznia.

A címkeoszlop lehet például [40], a lehetséges "Igen" vagy "Nem" értékekkel. Vagy lehet [Credit Risk] ([Hitelkockázat]) a lehetséges "High" (Magas) vagy "Low" (Alacsony) értékekkel.

  1. Adja hozzá a Kétosztályos logisztikai regresszió modult a kísérlethez a Studióban (klasszikus).

  2. Az Oktatói mód létrehozása lehetőség beállításával adja meg, hogyan szeretné betanítni a modellt.

    • Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, argumentumként egy adott értékkészletet is meg lehet adni.

    • Paramétertartomány: Ha nem biztos a legjobb paraméterekben, több érték megadásával és a Modell hiperparaméterek hangolása modullal megkeresheti az optimális konfigurációt. Az edző a beállítások több kombinációján iterál, és meghatározza a legjobb modellt előállító értékek kombinációját.

  3. Az Optimalizálási tűréshatár beállításhoz adja meg a modell optimalizálása során használni kívánt küszöbértéket. Ha az iterációk közötti javulás a megadott küszöbérték alá csökken, az algoritmus egy megoldáson konvergáltnak minősül, és a betanítás leáll.

  4. Az L1 regularizációs súly és az L2 regularizációs súly mezőben adja meg az L1 és L2 regularizációs paraméterekhez használni szükséges értéket. Mindkettő esetén nem nulla érték ajánlott.

    A regularizáció egy módszer a túlillesztés megakadályozására a modellek szélsőséges együtthatóértékekkel való átméretezésével. A regularizáció úgy működik, hogy hozzáadja a hipotézis hibához az együttható értékekhez kapcsolódó büntetést. Így egy pontos, szélsőséges együtthatós értékeket is felszámított modell jobban lenne, de egy kevésbé pontos modell, amely kevésbé lenne lerendezettebb értékekkel, kevésbé lenne leszámított.

    Az L1 és az L2 regularizációnak különböző hatásai és felhasználási hatásai vannak.

    • Az L1 ritka modellekre is alkalmazható, ami akkor hasznos, ha magas dimenziós adatokkal dolgozik.

    • Ezzel szemben az L2-regularizáció használata előnyösebb a nem ritka adatokhoz.

    Ez az algoritmus támogatja az L1 és az L2 regularizációs értékek lineáris kombinációját: x = L1y = L2azaz ha és , ax + by = c akkor meghatározza a regularizációs kifejezések lineáris tartományát.

    Megjegyzés

    Szeretne többet megtudni az L1 és az L2 regularizációról? A következő cikk az L1 és az L2 regularizáció különbségét és a modell illesztésére való hatást, valamint a logisztikai regressziós és neurális hálózati modellek kódmintáit tartalmazza: L1 és L2 regularization for Machine Learning

    Az L1 és L2 kifejezések különböző lineáris kombinációit a logisztikai regressziós modellekhez, például a rugalmas net-regularizációhoz alakítottuk ki. Javasoljuk, hogy ezekre a kombinációkra hivatkozva határozzon meg egy lineáris kombinációt, amely hatékony a modellben.

  5. Az L-BFGS memóriamérete beállításban adja meg az L-BFGS-optimalizáláshoz használni kívánt memória mennyiségét.

    Az L-BFGS jelentése "korlátozott memória broyden-Érem-Goldfarb-Shanno". Ez egy optimalizálási algoritmus, amely népszerű a paraméterbecsléshez. Ez a paraméter jelzi a következő lépés számítása során tárolni kívánt korábbi pozíciók és színátmenetek számát.

    Ez az optimalizálási paraméter korlátozza a következő lépés és irány kiszámításához használt memória mennyiségét. Ha kevesebb memóriát ad meg, a betanítás gyorsabb, de kevésbé pontos.

  6. A Véletlenszám-kezdőérték mezőbe írjon be egy egész számot. A kezdőérték meghatározása akkor fontos, ha azt szeretné, hogy az eredmények reprodukálhatók ugyanazon kísérlet több futtatásakor is.

  7. Válassza az Ismeretlen kategorikus szintek engedélyezése lehetőséget egy további "ismeretlen" szint létrehozásához az egyes kategorikus oszlopokban. Ha így történik, a tesztadatkészletben nem elérhető értékek (szintek) ehhez az "ismeretlen" szinthez vannak hozzárendelve.

  8. Adjon hozzá egy címkézett adatkészletet a kísérlethez, és kösse össze az egyik betanító modult.

    Megjegyzés

    Ha paramétertartományt ad át a Modell betanítása számára, az csak az első értéket fogja használni a paramétertartományok listájában.

    Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és a tanuló alapértelmezett értékeit használja.

    Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, a rendszer ezt az egyetlen értéket fogja használni a teljes átvizsgálás során, még akkor is, ha más paraméterek változnak egy értéktartományban.

  9. Futtassa a kísérletet.

Results (Eredmények)

A betanítás befejezése után:

  • A modell paramétereinek összegzését és a betanítás során megtanult jellemzősúlyokat úgy láthatja, hogy a jobb gombbal a Train Model (Modell betanítása) vagy a Tune Model Hyperparameters (Modell hiperparaméterek hangolása) kimenetére kattint, és a Visualize (Képi megjelenítés) lehetőséget választja.

  • Új adatok előrejelzéséhez használja a betanított modellt és az új adatokat a Modell pontozása modul bemeneteként .

  • Ha keresztellenőrzést szeretne végezni egy címkézett adathalmazon, csatlakoztassa az adatokat és a nem képezett modellt keresztellenőrzési modellhez.

Példák

A tanulási algoritmus használatára vonatkozó példákért tekintse meg a következő Azure AI Gallery:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Használati tippek

A logisztikai regresszióhoz numerikus változókra van szükség. Ezért ha kategorikus oszlopokat használ változóként, a Machine Learning belsőleg átalakítja az értékeket jelzőtömbökké.

A dátumok és időpontok numerikus ábrázolásokat használnak. (A dátum- és időértékekkel kapcsolatos további információkért lásd: DateTime Structure (.NET-keretrendszer) - Megjegyzések.) Ha másként szeretné kezelni a dátumokat és időpontokat, javasoljuk, hogy hozzon létre egy származtatott oszlopot.

Megvalósítás részletei

A logisztikai regresszió feltételezi az adatok logisztikai eloszlását, ahol annak a valószínűsége, hogy egy példa az 1. osztályba tartozik, a képlet:

p(x;β0,…, βD-1)

Ahol:

  • x A egy D-dimenziós vektor, amely a példány összes jellemzőjének értékeit tartalmazza.

  • p A a logisztikai terjesztés funkciója.

  • β{0},..., β {D-1} A a logisztikai disztribúció ismeretlen paraméterei.

Az algoritmus úgy próbálja megtalálni az β{0},..., β {D-1} optimális értékeit, hogy maximálisra maximalizálja a paraméterek valószínűségét a bemenetek alapján. A maximalizálás egy népszerű paraméterbecslési módszer, a Korlátozott memória BFGS használatával történik.

Kutatás

Az algoritmus megvalósításával kapcsolatos további információkért lásd Andrew és Gao: Scalable Training of L-1 Regularized Log-Linear Models (Az L-1 regularizált Log-Linear betanítása).

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Optimalizálási tűréshatár >=double. Epsilon Float 0.0000001 Az L-BFGS-optimalizáló tűréshatárértékének megadása
L1 regularizációs súly >=0,0 Float 1.0 Az L1 regularizáció súlyának megadása
L2 regularizációs súly >=0,0 Float 1.0 Az L2 regularizáció súlyának megadása
Az L-BFGS memóriamérete >=1 Egész szám 20 Adja meg az L-BFGS-optimalizálóhoz használni kívánt memória mennyiségét (MB-ban).
Véletlenszerű szám kezdőszáma Bármelyik Egész szám Írjon be egy értéket a modell által használt véletlenszám-generátor kezdőértékének megszabad tételhez. Hagyja üresen az alapértelmezett értéket.
Ismeretlen kategorikus szintek engedélyezése Bármelyik Logikai Igaz Jelezze, hogy minden kategorikus oszlophoz létre kell-e hoznunk egy további szintet. A tesztadatkészletnek a betanítás adatkészletében nem elérhető szintjei erre a további szintre vannak leképezve.

Kimenet

Név Típus Description
Nem korlátozott modell ILearner interfész Nem korlátozott besorolási modell

Lásd még

Osztályozás

Többosztályos logisztikai regresszió

A–Z modullista