Kétosztályos logisztikai regressziós összetevő
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Ezzel az összetevővel létrehozhat egy logisztikai regressziós modellt, amely két (és csak két) kimenet előrejelzésére használható.
A logisztikai regresszió egy jól ismert statisztikai módszer, amelyet számos probléma modellezésére használnak. Ez az algoritmus felügyelt tanulási módszer, ezért meg kell adnia egy olyan adatkészletet, amely már tartalmazza a modell betanítása során elért eredményeket.
Tudnivalók a logisztikai regresszióról
A logisztikai regresszió egy jól ismert módszer a statisztikákban, amely az eredmény valószínűségének előrejelzésére szolgál, és különösen népszerű a besorolási feladatokhoz. Az algoritmus az adatok logisztikai függvényhez való illesztésével előrejelzi az események előfordulásának valószínűségét.
Ebben az összetevőben a besorolási algoritmus kettős vagy bináris változókhoz van optimalizálva. Ha több eredményt kell osztályoznia, használja a többosztályos logisztikai regressziós összetevőt.
Konfigurálás
A modell betanítása érdekében meg kell adnia egy címkét vagy osztályoszlopot tartalmazó adathalmazt. Mivel ez az összetevő kétosztályos problémákra szolgál, a címkének vagy az osztályoszlopnak pontosan két értéket kell tartalmaznia.
Előfordulhat például, hogy a címke oszlopa [Szavazás] az "Igen" vagy a "Nem" lehetséges értékekkel. Vagy lehet [Hitelkockázat], amelynek lehetséges értéke "Magas" vagy "Alacsony".
Adja hozzá a kétosztályos logisztikai regressziós összetevőt a folyamathoz.
Adja meg a modell betanításának módját a Kiképző létrehozása mód beállításával.
Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, megadhat egy adott értékhalmazt argumentumként.
Paramétertartomány: Ha nem biztos a legjobb paraméterekben, az optimális paramétereket a Modell hiperparaméterek finomhangolása összetevővel találja meg. Megadhat néhány értéktartományt, és a tréner a beállítások több kombinációját is megszabadítja a legjobb eredményt eredményező értékek kombinációjának meghatározásához.
Az optimalizálási tűrés érdekében adjon meg egy küszöbértéket, amelyet a modell optimalizálása során használni szeretne. Ha az iterációk közötti javulás a megadott küszöbérték alá csökken, akkor az algoritmus konvergensnek minősül egy megoldáson, és a betanítás leáll.
Az L1 reginálási súly és az L2 reginálási súly esetében írja be az L1 és az L2 regicializálási paraméterekhez használandó értéket. Mindkettőhöz nem nulla érték ajánlott.
A rendszeresítés a túlillesztés megelőzésére szolgáló módszer, ha szélsőséges együtthatóértékekkel bünteti a modelleket. A rendezés úgy működik, hogy hozzáadja az együttható értékekhez tartozó büntetést a hipotézis hibájához. Így a szélsőséges együtthatóértékekkel rendelkező pontos modelleket jobban büntetnék, de a kevésbé pontos, konzervatívabb értékeket tartalmazó modelleket kevésbé büntetnék.Az L1 és L2 rendszeresítésnek különböző hatásai és felhasználási módjai vannak.
Az L1 ritkább modellekre alkalmazható, ami nagy dimenziójú adatok használatakor hasznos.
Ezzel szemben az L2-rendszerezés előnyösebb az olyan adatok esetében, amelyek nem ritkának.
Ez az algoritmus támogatja az L1 és az L2 reginálási értékek lineáris kombinációját, azaz ha
x = L1
ésy = L2
, majdax + by = c
meghatározza a reginálási kifejezések lineáris tartományát.Feljegyzés
Szeretne többet megtudni az L1 és az L2 rendszeresítéséről? Az alábbi cikk bemutatja, hogyan különbözik az L1 és az L2 szabályzása, és hogyan befolyásolják a modellillesztést. A logisztikai regressziós és neurális hálózati modellek kódmintái: L1 és L2 Regularization for Machine Learning
Az L1 és L2 kifejezések különböző lineáris kombinációit dolgozták ki logisztikai regressziós modellekhez, például rugalmas nettó szabályzáshoz. Javasoljuk, hogy ezekre a kombinációkra hivatkozva határozzon meg egy olyan lineáris kombinációt, amely hatékony a modellben.
Az L-BFGS memóriaméretéhez adja meg az L-BFGS-optimalizáláshoz használandó memória mennyiségét.
Az L-BFGS a "korlátozott memória Broyden-Fletcher-Goldfarb-Shanno" rövidítése. Ez egy optimalizálási algoritmus, amely népszerű a paraméterbecsléshez. Ez a paraméter a következő lépés számításához tárolandó múltbeli pozíciók és színátmenetek számát jelzi.
Ez az optimalizálási paraméter korlátozza a következő lépés és irány kiszámításához használt memória mennyiségét. Ha kevesebb memóriát ad meg, a betanítás gyorsabb, de kevésbé pontos.
Véletlenszerű számmag esetén írjon be egy egész számot. A magérték meghatározása akkor fontos, ha azt szeretné, hogy az eredmények ugyanazon folyamat több futtatása során reprodukálhatók legyenek.
Vegyen fel egy címkézett adatkészletet a folyamatba, és tanítsa be a modellt:
Ha a Kiképző létrehozása módot egyetlen paraméterre állítja, csatlakoztassa a címkézett adatkészletet és a Modell betanítása összetevőt.
Ha paramétertartományra állítja a Kiképző létrehozása módot, csatlakoztassa a címkézett adatkészletet, és betanítsa a modellt a modell hiperparamétereinek finomhangolásával.
Feljegyzés
Ha paramétertartományt ad át a modell betanítása gombra, az csak az egyetlen paraméterlistában szereplő alapértelmezett értéket használja.
Ha egyetlen paraméterértéket ad át a Modell hiperparaméterek hangolása összetevőnek, amikor az egyes paraméterekhez egy beállítástartományt vár, figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanuló számára.
Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer a takarítás során az ön által megadott egyetlen értéket használja, még akkor is, ha más paraméterek egy értéktartományon belül változnak.
Küldje el a folyamatot.
Results (Eredmények)
A betanítás befejezése után:
- Ha új adatokra vonatkozó előrejelzéseket szeretne készíteni, használja a betanított modellt és az új adatokat a Score Model összetevő bemeneteként.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.