Számítási lineáris korreláció
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learning való áthelyezéséről olvashat.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Kiszámítja az adathalmaz oszlopértékei közötti lineáris korrelációt
Kategória: Statisztikai függvények
Megjegyzés
Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a compute linear correlation modul a Machine Learning Studio (klasszikus) alkalmazásban a Pearson korrelációs együtthatóinak kiszámítására a bemeneti adathalmaz minden lehetséges változópárja esetében.
A Pearson korrelációs együtthatója, más néven Pearson R-tesztje egy statisztikai érték, amely két változó lineáris kapcsolatát méri. Az együttható értékek vizsgálatával következtethet a két változó közötti kapcsolat erősségére, valamint arra, hogy azok pozitívan korreláltak vagy negatívan korreláltak-e.
Lineáris korreláció konfigurálása
A korrelációs együttható kiszámítása előtt van néhány előfeltétel, például az adatok tisztítása és annak ellenőrzése, hogy a változók közötti kapcsolat megfelelő-e ehhez a modulhoz. A hiányzó értékeket is el kell távolítania vagy impute-nak kell lennie.
A modul használatakor a következő korlátozások érvényesek:
A Számítási lineáris korreláció modul csak numerikus értékeket képes feldolgozni. Minden más típusú érték, beleértve a hiányzó értékeket, a nem numerikus értékeket és a kategorikus értékeket, naN-ként lesz kezelve.
A Pearson korrelációja az adathalmaz minden olyan numerikus oszlopára ki van számítva, amelyet bemenetként adnak át. Mindenképpen zárja ki az elemzéshez megfelelő oszlopokat.
A számítási lineáris korreláció nem használható hiányzó értékekkel rendelkező adatokkal.
1. lépés: A linearitás meghatározása
Ha a tesztelt oszlopoknak nem kell valamilyen lineáris kapcsolattal rendelkezniük, nincs értelme létrehozni ezt az együtthatót. Ezért érdemes először tesztelni az oszlopokat, hogy kiderüljön, a megfelelő típusú adatokkal és általában a megfelelő eloszlással rendelkeznek-e.
Többféleképpen is meghatározhatja, hogy az oszlopok közötti kapcsolat nagyjából lineáris-e:
Hozza létre a változók pontdiagramját a Studióban (klasszikus) az adathalmaz Vizualizáció lehetőségével. Kattintson az egyik numerikus változóoszlopra, bontsa ki a Vizualizációk elemet, és kattintson az Összehasonlítás gombra. Válasszon egy másik változót, és a pontdiagram automatikusan létrejön. Ha más típusú diagram jön létre, az azt jelenti, hogy legalább egy oszlopnak más (nem numerikus) adattípusa van.
Számítsa ki a regressziós egyenletet a két változóhoz. Ezt számos R-csomag támogatja, amelyeket betölthet és használhat az R-szkript végrehajtása modulban.
2. lépés: Adatok tisztítása
El kell távolítania vagy ki kell töltenie a hiányzó értékeket, el kell távolítania vagy ki kell vágnia a kiugró értékeket, és gondoskodnia kell arról, hogy az oszlopok megfelelő adattípussal rendelkezzenek.
A modul használata előtt ellenőrizze a helyőrzőket, és cserélje le az értéket más megfelelő értékekre. Ha az adathalmaz forrásból való betöltésekor hiányzik értékek miatt naN-eket szúrtak be, az hibát okozhat. A helyőrző értékek, például a 999
-1
hibás eredmények is okozhatnak.
Az adatok előkészítéséhez az alábbi modulokat használhatja:
A metaadatok szerkesztésével módosíthatja az oszlopok adattípusát. Győződjön meg arról, hogy az elemezni kívánt oszlopok funkcióoszlopként vannak megjelölve.
3. lépés: Az együttható létrehozása
Adja hozzá a számítási lineáris korrelációs modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a (klasszikus) Machine Learning Studióban.
Adja hozzá az elemezni kívánt adathalmazt.
A szükségtelen oszlopok eltávolításához javasoljuk, hogy adjon hozzá egy Oszlopválasztás az Adathalmaz modulban az adathalmaz és a Számítási lineáris korreláció modul között. Konfigurálja az Adathalmaz oszlopainak kijelölése modult , hogy csak azt a két numerikus oszlopot kapja meg, amelyek együtthatóit ki szeretné számítani.
Ellenkező esetben a Számítási lineáris korreláció modul számos NaN-oszlopot generálhat.
Ehhez a modulhoz nincsenek beállítva paraméterek. Ez azonban sikertelen lesz, ha a bemenetként átadott oszlopok nem felelnek meg a követelményeknek.
Futtassa a kísérletet.
Két oszlop eredményei
Két jellemzőoszlop alapján a Compute Linear Correlation modul a skaláris Pearson-szorzat (minta) korrelációs együtthatóját adja vissza. A Pearson korrelációs együttható (amelyet gyakran r-nek neveznek) +1 és -1 közötti értéktartományok.
+1
erős pozitív lineáris kapcsolatot jelez-1
erős negatív lineáris korrelációt jelez0
A nem jelöl lineáris kapcsolatot a két változó között.
Az együtthatók értelmezése nagymértékben függ a modellező problémától és a tanulmányozott változóktól. Ezért fontos megérteni az adatok kontextusát a Pearson korrelációs együtthatójának jelentésekor és értelmezésekor.
Ha biztos abban, hogy a változók nem kapcsolódnak egymáshoz, és mégis a Pearson korrelációs együtthatója erősen pozitív (r.5 > vagy újabb), akkor érdemes további vizsgálatokat is megvizsgálni.
Ha lineáris korrelációt használ két olyan változón, amelyekről tudja, hogy tökéletesen korrelálnak, és az együttható értékek nem a várt értékek, az problémát jelezhet az adatokban.
Kétnél több oszlop eredményei
Egy mátrix (azaz több mint két jellemzőoszlop) alapján a Compute Linear Correlation modul a Pearson-termék pillanatnyi korrelációit adja vissza az egyes funkcióoszloppárok között.
Ezért az eredmény egy n x n tábla, amely az n oszlopok egyes kombinációinak együtthatóit tartalmazza. Ha bármelyik oszlop nem felel meg a feltételeknek, a naN ("nem szám" érték) lesz visszaadva.
Tegyük fel például, hogy a két numerikus oszlopot wheel-base
és curb-weight
egy kategorikus oszlopot make
adta meg (az Automobile price adatkészletből). Az eredmény egy 3x3-ból álló együtthatók táblázata a bemeneti oszlopok összes lehetséges kombinációjához:
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
Ebben a táblázatban a sorok úgy vannak értelmezve, wheel-base
hogy az egyes változókatmake
, és curb-weight
ebben a sorrendben jelöljék.
- Az önmagával való korreláció
wheel-base
r értéke 1. - A korreláció
wheel-base
curb-weight
r értéke 0,776386. - Az oszlopot
make
tartalmazó összes korreláció NaN-t eredményez, beleértve a önmagával való korrelációt is, mivelmake
ez egy sztringfunkció.
Javasoljuk, hogy távolítsa el a nem numerikus oszlopokat, hogy elkerülje a sok értelmetlen értékkel rendelkező összetett táblákat.
Példák
A modul gépi tanulási kísérletekben való felhasználásának megismeréséhez tekintse meg az Azure AI-katalógust:
- Adatfeldolgozás és elemzés: Ez a minta több módszert mutat be az adatok módosítására. A számítási lineáris korreláció a lehetséges funkcióoszlopok azonosítására szolgál.
Technikai megjegyzések
Ez a szakasz a megvalósítás részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Megvalósítás részletei
Ha a bemenetként átadott oszlop skaláris értékeket tartalmaz, a bemeneti tömbök (x és y) vektorként lesznek kezelve, és a Pearson-szorzat pillanatnyi korrelációja az alábbiak szerint lesz kiszámítva:
Ebben a képletben minden tömb n elemet tartalmaz, az x és az y minta középeszköze pedig μx és μy.
Mátrix esetén az adatok mátrixa (X) bemenet, amelyben minden oszlop egy értékvektort jelöl. Az adatmátrixnak n-by-m értéknek kell lennie. A kimenet az M-by-m mátrix, az R az
Ebben a képletben a μx az xi oszlop középértékét jelöli. Az I,j elemek mindig 1-nek hatnak, mivel egy vektor korrelációját képviselik önmagával.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Kimenetek
Név | Típus | Description |
---|---|---|
Eredmények adatkészlete | Adattábla | Korrelációs mátrix |
Kivételek
Kivétel | Description |
---|---|
0003-ás hiba | Kivétel történik, ha egy vagy több bemenet null értékű vagy üres. |
0020-ás hiba | Kivétel történik, ha a modulnak átadott adathalmazok némelyikében túl kicsi az oszlopok száma. |
0021-s hiba | Kivétel történik, ha a modulnak átadott egyes adathalmazok sorainak száma túl kicsi. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listáját Machine Learning hibakódok között találja.
Az API-kivételek listáját Machine Learning REST API-hibakódok között találja.