Share via


Funkcióválasztási modulok

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk a Machine Learning Studio (klasszikus) moduljait ismerteti, amelyek a funkciók kiválasztásához használhatók.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A funkciók kiválasztása fontos eszköz a gépi tanulásban. Machine Learning Studio (klasszikus) több módszert is kínál a funkciók kiválasztására. Válasszon ki egy jellemzőválasztási módszert az adatok típusa és az alkalmazott statisztikai technika követelményei alapján.

Ez a cikk a következővel foglalkozik:

A Machine Learning Studio minden egyes funkciókiválasztási modulja egy adatkészletet használ bemenetként. Ezután a modul ismert statisztikai metódusokat alkalmaz a bemeneti adatoszlopra. A kimenet metrikák halmaza, amelyek segítségével azonosíthatja azokat az oszlopokat, amelyek a legjobb információs értékkel bírnak.

A funkciók kiválasztásának leírása

A gépi tanulásban és a statisztikákban a jellemzők kiválasztásának folyamata a releváns, hasznos funkciók egy részkészletének kiválasztása az elemzési modell kiépítése során. A funkció kiválasztása segít leszűkíteni az adatmezőt a legértékesebb bemenetre. Az adatmezők szűkítésével csökkenthető a zaj, és javul a betanítás teljesítménye.

A jellemzők gyakran nyers adatokból, jellemzőkiépítési folyamattal vannak létrehozva. Előfordulhat például, hogy egy időbélyegző önmagában nem hasznos a modellezéshez, amíg az információk a problémához kapcsolódó napok, hónapok vagy kategóriák mértékegységeivé nem alakulnak át, például ünnepnapra vagy munkanapra.

Előfordulhat, hogy a gépi tanulás új felhasználói minden elérhető adatot tartalmaznak. Azt várják, hogy az algoritmus több adatból is talál valami érdekeset. A funkcióválasztás azonban általában javíthatja a modellt, és megelőzheti a gyakori problémákat:

  • Az adatok redundáns vagy irreleváns funkciókat tartalmaznak, amelyek nem nyújtanak több információt, mint a jelenleg kiválasztott funkciók.
  • Az adatok irreleváns jellemzőket tartalmaznak, amelyek semmilyen kontextusban nem nyújtanak hasznos információt. Az irreleváns mezők beemelése nem csupán növeli az adatok betanításához szükséges időt, de gyenge eredményekhez is vezethet.
  • Egyes algoritmusok duplikált információi a betanítás adataiban multikollinearitásnak nevezett jelenséghez vezethetnek. A multikollinearitásban két erősen korrelált változó jelenléte miatt más változók számításai sokkal kevésbé pontosak lesznek.

Tipp

A Machine Learning Studio (klasszikus) néhány gépi tanulási algoritmusa a betanítási folyamat részeként funkcióválasztást vagy dimenziócsökkentést is használ. Ha ezeket a tanulókat használja, kihagyhatja a funkcióválasztási folyamatot, és hagyhatja, hogy az algoritmus döntsön a legjobb bemenetről.

Funkcióválasztás használata kísérletben

A funkciók kiválasztása általában az adatok feltárása és egy új modell fejlesztése során történik. A funkciók kiválasztásakor tartsa szem előtt az alábbi tippeket:

  • A tesztelés során vegyen fel funkciókat a kísérletbe olyan pontszámok létrehozásához, amelyek tájékoztatják a döntést arról, hogy mely oszlopokat kell használni.
  • Távolítsa el a funkcióválasztást a kísérletből a modell működőképessége során.
  • Rendszeres időközönként futtassa a funkcióválasztást, hogy az adatok és a legjobb funkciók ne változnak.

A jellemzők kiválasztása eltér a jellemzőkiválasztástól, amely a meglévő adatok új funkcióinak létrehozására összpontosít.

Források

  • A jellemzők tervezésének és az adattudományi folyamat legjobb funkcióinak kiválasztásának különböző módjairól a Jellemzőkiépítés az adattudományban részben található.
  • Az adattudományi folyamat funkcióválasztásának bemutatójért lásd: Funkciók szűrése az adatokból – Funkcióválasztás.

Funkcióválasztási módszerek a Machine Learning Studióban (klasszikus)

A következő funkciókiválasztási modulok a Machine Learning Studióban biztosítanak.

Szűrőalapú szolgáltatásválasztás

A Szűrőalapú funkcióválasztás modul használata esetén a jól ismert funkcióválasztási módszerek közül választhat. A modul a funkciókiválasztási statisztikákat és a szűrt adatkészletet is kihozja.

A választott szűrőkijelölési módszer részben attól függ, hogy milyen típusú bemeneti adatok vannak.

Metódus Támogatott funkciók bemenetei Támogatott címkék
Pearson korrelációja Csak numerikus és logikai oszlopok Egyetlen numerikus vagy logikai oszlop
Kölcsönös információk pontszáma Minden adattípus Egyetlen oszlop bármilyen adattípussal
Kendall korrelációs együtthatója Csak numerikus és logikai oszlopok Egyetlen numerikus vagy logikai oszlop

Az oszlopoknak rangsorolva kell lennie
Spearman korrelációs együtthatója Csak numerikus és logikai oszlopok Egyetlen numerikus vagy logikai oszlop
Khi-négyzetes statisztika Minden adattípus Egyetlen oszlop bármilyen adattípussal
Pontszám Csak numerikus és logikai oszlopok Egyetlen numerikus vagy logikai oszlop

A sztringoszlopok 0 pontszámot kapnak
Számalapú funkció kiválasztása Minden adattípus Nincs szükség feliratoszlopra

Fisher Linear Discriminant Analysis

A lineáris diszkrimináns elemzés felügyelt tanulási módszer, amely numerikus változók egyetlen kategorikus célhoz való besorolására használható. A metódus hasznos a jellemzők kiválasztásához, mert azonosítja a csoportokat legjobban elválasztó funkciók vagy paraméterek kombinációját.

A Linear Discriminant Analysis (Lineáris diszkrimináns elemzés) modullal pontszámokat hozhat létre felülvizsgálatra, vagy használhatja a modul által a betanításhoz létrehozott helyettesítő adathalmazt.

A permutáció funkció fontossága

A Permutation Feature Importance (Permutáció funkció fontossága) modullal szimulálhatja a funkcióknak az adathalmazra gyakorolt hatását. A modul a jellemzőértékek véletlenszerű eltolása alapján számítja ki a modell teljesítménypontszámait.

A modul által visszaadott pontszámok a betanított modell pontosságának lehetséges változását jelentik, ha az értékek megváltoznak. A pontszámok segítségével meghatározhatja, hogy az egyes változók milyen hatással vannak a modellre.

Funkciók kiválasztását magában foglaló gépi tanulási algoritmusok

A Machine Learning Studio egyes gépi tanulási algoritmusai optimalizálják a funkciók kiválasztását a betanítás során. Emellett olyan paramétereket is nyújthatnak, amelyek segítenek a funkciók kiválasztásában. Ha olyan metódust használ, amely saját heurisztikával rendelkezik a jellemzők kiválasztásához, gyakran jobb erre a heurisztikára támaszkodni a jellemzők előzetes kiválasztása helyett.

Ezeket az algoritmusokat és a jellemzőválasztási módszereket belsőleg használják:

  • Megnövelt döntésifa-modellek besoroláshoz és regresszióhoz

    Ezekben a modulokban a szolgáltatás összegzése belsőleg jön létre. A 0-s súlyozású jellemzőket nem használják faágak. A legjobb betanított modell vizualizációjakor mindegyik fát meg lehet nézni. Ha egy funkciót soha nem használnak fastruktúrában, akkor valószínűleg eltávolítható. A kiválasztás optimalizálása során a paraméteres átkésésezés használata is jó ötlet.

  • Logisztikai regressziós modellek és lineáris modellek

    A többosztályos és bináris logisztikai regresszió moduljai támogatják az L1 és az L2 regularizációt. A regularizációval megkötéseket adhat hozzá a betanítás során, így manuálisan megadhatja a megtanult modell egy aspektusát. A regularizációt általában a túlillesztés elkerülésére használják. Machine Learning Studio (klasszikus) támogatja a lineáris besorolási algoritmusok súlyvektorának L1 vagy L2 szabvány szerinti szabályozását:

    • Az L1-regularizálás akkor hasznos, ha a cél egy olyan modell, amely a lehető ritka.
    • Az L2-regularizálás megakadályozza, hogy a súlyvektor minden egyes koordinátája túl nagyra nő. Akkor hasznos, ha a cél egy kis összesített súlyozású modell.
    • Az L1-regularizált logisztikai regresszió agresszívabb, ha 0-s súlyozást rendelünk a jellemzőkhez. Ez hasznos lehet az eltávolítható funkciók azonosításában.

Technikai megjegyzések

A numerikus és logikai oszlopokat támogató összes funkciókiválasztási modul és elemzési módszer támogatja a dátum- és időtartomány-oszlopokat is. Ezeket az oszlopokat a függvény egyszerű numerikus oszlopokként kezeli, amelyekben minden érték egyenlő az órajelekkel.

A következő modulok nem a Funkcióválasztás kategóriában vannak, de kapcsolódó feladatokhoz is használhatók. A modulok segíthetnek csökkenteni az adatok dimenziósságát, vagy korrelációkat találni:

Ha több oszlopból áll egy adatkészlet, a Fő összetevő elemzése modullal észlelheti azokat az oszlopokat, amelyek a legtöbb információt tartalmazzák az eredeti adatokról.

Ez a modul az Adatátalakítás kategóriában , a Skálázás és Csökkentés alatt található.

A darabszámalapú jellemzősítés egy új technika, amely segítségével nagy adatkészletek használatával meghatározhatók a hasznos jellemzők. Ezekkel a modulokkal adathalmazokat elemezhet a legjobb funkciók megkereséhez, új adatokkal használható funkciókat menthet, vagy frissíthet egy meglévő funkciókészletet.

Ezzel a modullal Pearson-korrelációs együtthatók készletét számítja ki a bemeneti adatkészlet minden lehetséges változópárja esetében. A Pearson korrelációs együtthatója, más néven Pearson R-tesztje, statisztikai érték, amely két változó lineáris kapcsolatát méri.

Ez a modul a Statisztikai függvények kategóriába tartozik.

Modulok listája

A Funkcióválasztás kategória a következő modulokat tartalmazza:

Lásd még