Funkcióválasztási modulok
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk a Machine Learning Studio (klasszikus) moduljait ismerteti, amelyek a funkciók kiválasztásához használhatók.
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A funkciók kiválasztása fontos eszköz a gépi tanulásban. Machine Learning Studio (klasszikus) több módszert is kínál a funkciók kiválasztására. Válasszon ki egy jellemzőválasztási módszert az adatok típusa és az alkalmazott statisztikai technika követelményei alapján.
Ez a cikk a következővel foglalkozik:
- Mi az a funkcióválasztás?
- Szolgáltatáskiválasztási modulok a Machine Learning
- A funkciók kiválasztásának használata
- Funkciók kiválasztását magában foglaló algoritmusok
A Machine Learning Studio minden egyes funkciókiválasztási modulja egy adatkészletet használ bemenetként. Ezután a modul ismert statisztikai metódusokat alkalmaz a bemeneti adatoszlopra. A kimenet metrikák halmaza, amelyek segítségével azonosíthatja azokat az oszlopokat, amelyek a legjobb információs értékkel bírnak.
A funkciók kiválasztásának leírása
A gépi tanulásban és a statisztikákban a jellemzők kiválasztásának folyamata a releváns, hasznos funkciók egy részkészletének kiválasztása az elemzési modell kiépítése során. A funkció kiválasztása segít leszűkíteni az adatmezőt a legértékesebb bemenetre. Az adatmezők szűkítésével csökkenthető a zaj, és javul a betanítás teljesítménye.
A jellemzők gyakran nyers adatokból, jellemzőkiépítési folyamattal vannak létrehozva. Előfordulhat például, hogy egy időbélyegző önmagában nem hasznos a modellezéshez, amíg az információk a problémához kapcsolódó napok, hónapok vagy kategóriák mértékegységeivé nem alakulnak át, például ünnepnapra vagy munkanapra.
Előfordulhat, hogy a gépi tanulás új felhasználói minden elérhető adatot tartalmaznak. Azt várják, hogy az algoritmus több adatból is talál valami érdekeset. A funkcióválasztás azonban általában javíthatja a modellt, és megelőzheti a gyakori problémákat:
- Az adatok redundáns vagy irreleváns funkciókat tartalmaznak, amelyek nem nyújtanak több információt, mint a jelenleg kiválasztott funkciók.
- Az adatok irreleváns jellemzőket tartalmaznak, amelyek semmilyen kontextusban nem nyújtanak hasznos információt. Az irreleváns mezők beemelése nem csupán növeli az adatok betanításához szükséges időt, de gyenge eredményekhez is vezethet.
- Egyes algoritmusok duplikált információi a betanítás adataiban multikollinearitásnak nevezett jelenséghez vezethetnek. A multikollinearitásban két erősen korrelált változó jelenléte miatt más változók számításai sokkal kevésbé pontosak lesznek.
Tipp
A Machine Learning Studio (klasszikus) néhány gépi tanulási algoritmusa a betanítási folyamat részeként funkcióválasztást vagy dimenziócsökkentést is használ. Ha ezeket a tanulókat használja, kihagyhatja a funkcióválasztási folyamatot, és hagyhatja, hogy az algoritmus döntsön a legjobb bemenetről.
Funkcióválasztás használata kísérletben
A funkciók kiválasztása általában az adatok feltárása és egy új modell fejlesztése során történik. A funkciók kiválasztásakor tartsa szem előtt az alábbi tippeket:
- A tesztelés során vegyen fel funkciókat a kísérletbe olyan pontszámok létrehozásához, amelyek tájékoztatják a döntést arról, hogy mely oszlopokat kell használni.
- Távolítsa el a funkcióválasztást a kísérletből a modell működőképessége során.
- Rendszeres időközönként futtassa a funkcióválasztást, hogy az adatok és a legjobb funkciók ne változnak.
A jellemzők kiválasztása eltér a jellemzőkiválasztástól, amely a meglévő adatok új funkcióinak létrehozására összpontosít.
Források
- A jellemzők tervezésének és az adattudományi folyamat legjobb funkcióinak kiválasztásának különböző módjairól a Jellemzőkiépítés az adattudományban részben található.
- Az adattudományi folyamat funkcióválasztásának bemutatójért lásd: Funkciók szűrése az adatokból – Funkcióválasztás.
Funkcióválasztási módszerek a Machine Learning Studióban (klasszikus)
A következő funkciókiválasztási modulok a Machine Learning Studióban biztosítanak.
Szűrőalapú szolgáltatásválasztás
A Szűrőalapú funkcióválasztás modul használata esetén a jól ismert funkcióválasztási módszerek közül választhat. A modul a funkciókiválasztási statisztikákat és a szűrt adatkészletet is kihozja.
A választott szűrőkijelölési módszer részben attól függ, hogy milyen típusú bemeneti adatok vannak.
Metódus | Támogatott funkciók bemenetei | Támogatott címkék |
---|---|---|
Pearson korrelációja | Csak numerikus és logikai oszlopok | Egyetlen numerikus vagy logikai oszlop |
Kölcsönös információk pontszáma | Minden adattípus | Egyetlen oszlop bármilyen adattípussal |
Kendall korrelációs együtthatója | Csak numerikus és logikai oszlopok | Egyetlen numerikus vagy logikai oszlop Az oszlopoknak rangsorolva kell lennie |
Spearman korrelációs együtthatója | Csak numerikus és logikai oszlopok | Egyetlen numerikus vagy logikai oszlop |
Khi-négyzetes statisztika | Minden adattípus | Egyetlen oszlop bármilyen adattípussal |
Pontszám | Csak numerikus és logikai oszlopok | Egyetlen numerikus vagy logikai oszlop A sztringoszlopok 0 pontszámot kapnak |
Számalapú funkció kiválasztása | Minden adattípus | Nincs szükség feliratoszlopra |
Fisher Linear Discriminant Analysis
A lineáris diszkrimináns elemzés felügyelt tanulási módszer, amely numerikus változók egyetlen kategorikus célhoz való besorolására használható. A metódus hasznos a jellemzők kiválasztásához, mert azonosítja a csoportokat legjobban elválasztó funkciók vagy paraméterek kombinációját.
A Linear Discriminant Analysis (Lineáris diszkrimináns elemzés) modullal pontszámokat hozhat létre felülvizsgálatra, vagy használhatja a modul által a betanításhoz létrehozott helyettesítő adathalmazt.
A permutáció funkció fontossága
A Permutation Feature Importance (Permutáció funkció fontossága) modullal szimulálhatja a funkcióknak az adathalmazra gyakorolt hatását. A modul a jellemzőértékek véletlenszerű eltolása alapján számítja ki a modell teljesítménypontszámait.
A modul által visszaadott pontszámok a betanított modell pontosságának lehetséges változását jelentik, ha az értékek megváltoznak. A pontszámok segítségével meghatározhatja, hogy az egyes változók milyen hatással vannak a modellre.
Funkciók kiválasztását magában foglaló gépi tanulási algoritmusok
A Machine Learning Studio egyes gépi tanulási algoritmusai optimalizálják a funkciók kiválasztását a betanítás során. Emellett olyan paramétereket is nyújthatnak, amelyek segítenek a funkciók kiválasztásában. Ha olyan metódust használ, amely saját heurisztikával rendelkezik a jellemzők kiválasztásához, gyakran jobb erre a heurisztikára támaszkodni a jellemzők előzetes kiválasztása helyett.
Ezeket az algoritmusokat és a jellemzőválasztási módszereket belsőleg használják:
Megnövelt döntésifa-modellek besoroláshoz és regresszióhoz
Ezekben a modulokban a szolgáltatás összegzése belsőleg jön létre. A 0-s súlyozású jellemzőket nem használják faágak. A legjobb betanított modell vizualizációjakor mindegyik fát meg lehet nézni. Ha egy funkciót soha nem használnak fastruktúrában, akkor valószínűleg eltávolítható. A kiválasztás optimalizálása során a paraméteres átkésésezés használata is jó ötlet.
Logisztikai regressziós modellek és lineáris modellek
A többosztályos és bináris logisztikai regresszió moduljai támogatják az L1 és az L2 regularizációt. A regularizációval megkötéseket adhat hozzá a betanítás során, így manuálisan megadhatja a megtanult modell egy aspektusát. A regularizációt általában a túlillesztés elkerülésére használják. Machine Learning Studio (klasszikus) támogatja a lineáris besorolási algoritmusok súlyvektorának L1 vagy L2 szabvány szerinti szabályozását:
- Az L1-regularizálás akkor hasznos, ha a cél egy olyan modell, amely a lehető ritka.
- Az L2-regularizálás megakadályozza, hogy a súlyvektor minden egyes koordinátája túl nagyra nő. Akkor hasznos, ha a cél egy kis összesített súlyozású modell.
- Az L1-regularizált logisztikai regresszió agresszívabb, ha 0-s súlyozást rendelünk a jellemzőkhez. Ez hasznos lehet az eltávolítható funkciók azonosításában.
Technikai megjegyzések
A numerikus és logikai oszlopokat támogató összes funkciókiválasztási modul és elemzési módszer támogatja a dátum- és időtartomány-oszlopokat is. Ezeket az oszlopokat a függvény egyszerű numerikus oszlopokként kezeli, amelyekben minden érték egyenlő az órajelekkel.
Kapcsolódó feladatok
A következő modulok nem a Funkcióválasztás kategóriában vannak, de kapcsolódó feladatokhoz is használhatók. A modulok segíthetnek csökkenteni az adatok dimenziósságát, vagy korrelációkat találni:
Ha több oszlopból áll egy adatkészlet, a Fő összetevő elemzése modullal észlelheti azokat az oszlopokat, amelyek a legtöbb információt tartalmazzák az eredeti adatokról.
Ez a modul az Adatátalakítás kategóriában , a Skálázás és Csökkentés alatt található.
A darabszámalapú jellemzősítés egy új technika, amely segítségével nagy adatkészletek használatával meghatározhatók a hasznos jellemzők. Ezekkel a modulokkal adathalmazokat elemezhet a legjobb funkciók megkereséhez, új adatokkal használható funkciókat menthet, vagy frissíthet egy meglévő funkciókészletet.
Ezzel a modullal Pearson-korrelációs együtthatók készletét számítja ki a bemeneti adatkészlet minden lehetséges változópárja esetében. A Pearson korrelációs együtthatója, más néven Pearson R-tesztje, statisztikai érték, amely két változó lineáris kapcsolatát méri.
Ez a modul a Statisztikai függvények kategóriába tartozik.
Modulok listája
A Funkcióválasztás kategória a következő modulokat tartalmazza:
- Szűrőalapú funkcióválasztás: Azonosítja az adatkészlet azon funkcióit, amelyek a legnagyobb prediktív teljesítményt kínálják.
- Linear Discriminant Analysis (Lineáris diszrimináns elemzés): Azonosítja az olyan jellemzőváltozók lineáris kombinációját, amelyek a legjobban csoportosítják az adatokat külön osztályokba.
- Permutáció funkció fontossága: Kiszámítja a permutációs funkció fontosságpontszámait egy betanított modell és egy tesztadatkészlet jellemzőváltozóiból.