Számítási elemi statisztika
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Kiszámítja a megadott összefoglaló statisztikákat a kiválasztott adatkészlet-oszlopokhoz
Kategória: Statisztikai függvények
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Compute Elementary Statistics modul a Machine Learning Studióban (klasszikus) egy összegző jelentés létrehozásához az adatkészlethez, amely felsorolja a kulcsfontosságú statisztikákat, például a átlagot, a szórást és az értékek tartományát az egyes kiválasztott oszlopokhoz.
Ez a jelentés a központi trend, az eloszlás és az adatok alakjának elemzéséhez hasznos.
A compute elemi statisztikáinak konfigurálása
Adja hozzá a Compute Elementary Statistics modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a Machine Learning Studio (klasszikus) kategóriában.
Csatlakozás az elemezni kívánt oszlopokat tartalmazó adatkészletet.
Kattintson a Metódus legördülő listára, és válassza ki az egyes oszlopokhoz kiszámítani kívánt érték típusát.
Az elérhető statisztikák teljes listáját és azok alatta álló adatokat a Támogatott statisztikák szakaszban láthatja.
Alapértelmezés szerint a Metódus legördülő listában kiválasztott érték az adatkészlet összes numerikus adattípussal bírt oszlopára lesz kiszámítva. Ha bármely oszlop olyan értékekkel rendelkezik, amelyek megakadályozzák az érték kiszámítását, a rendszer hibát jelez, és a jelentés nem jön létre.
A hiba elkerülése érdekében az oszlopválasztóval válassza ki azokat a numerikus oszlopokat, amelyekhez jelentést szeretne. Minden választott oszlopnak numerikusnak kell lennie.
Futtassa a kísérletet.
Results (Eredmények)
A létrehozott jelentés tartalmazza az egyes oszlopok nevét és a kiszámított statisztikát. Az alábbi táblázat például az mpg oszlophoz létrehozott statisztikákat mutatja.
DeviationSquared (mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
Tipp
A Compute elementary Statistics minden futtatásakor csak egyetlen összefoglaló statisztikát hozhat létre az egyes kijelölt oszlopokhoz. Az Oszlopok hozzáadása vagy a Sorok hozzáadása modullal azonban egyetlen táblában egyesítheti az eredményeket, ahogyan az előző példában is látható.
Támogatott statisztikák
Ez a modul a következő szabványos leíró statisztikákat támogatja.
Szórás négyzetre
Kiszámítja az oszlopértékek négyzetes eltérését. Más néven a négyzetek összege.
A négyzetes eltérés azt méri, hogy milyen távol vannak az értékek a átlagtól.
Geometriai átlagos
Kiszámítja az oszlopértékek geometriai átlagát.
A geometriai középpont a számok halmazának központi trendje mérésére használható. Az aritmetikai középértékhez képest kisebb a szélsőséges értékek száma. Különböző skálán végzett mérések összehasonlítására is használható, mivel hatékonyan normalizálja az összehasonlított számok skáláit. A geometriai átlagokkal néha meg lehet becsülni az összetett éves növekedési rátákat.
A függvény egyenértékű függvénye Excel GEOMEAN.
Harmonikus átlagos
Kiszámítja az oszlopértékek harmonikus átlagát.
A harmonikus átlag kiszámításához az összes érték a kölcsönös értékekké lesz konvertálva, majd ezek átlagát veszik fel. A harmonikus átlagos a reciproka. Ha az oszlop értékei pozitívak, a nagyobb számok kisebb súlyozást tartalmaznak, mint a kisebbek.
A harmonikus átlagos mindig kisebb, mint a geometriai átlagos, amely mindig kisebb, mint az aritmetikai átlagos. A harmonikus átlag olyan változók átlagolására használható, amelyek díjszabást képviselnek, például a sebességet (az idő alapjáni távolságot) vagy a negyedévenkénti értékesítéseket.
A függvény egyenértékű függvénye Excel HARMEAN.
Interquartile distance
Kiszámítja az oszlopértékek első és utolsó kvartilise közötti különbséget. Más néven a kvartilistartomány. Ha a kvartilis két szám közé esik, a kvartilis értéke a vágás mindkét oldalán található két érték átlaga.
A kvartilis érték az értékek oszlopát négy csoportba osztja egyenlő számú értékkel. Így az értékek negyede kisebb vagy egyenlő, mint a 25. percentilis. Az értékek három negyedéve kisebb vagy egyenlő, mint a 75. percentilis. A kvartilistartomány áttekintését áttekintve áttekintheti, hogy milyen széles körben vannak elterjesztve az adatértékek.
K-a-a-középső pillanat
Kiszámítja az oszlopértékek K-a-a-középső pillanatát.
A K-edik központi pillanat kiszámításakor az Order (Sorrend) értéket is meg kell adnia, ami a k értéket jelenti. A k értéke 0 és bármely megengedett egész szám között lehet, bár a magasabb sorrendű értékek általában nem értelmezhetők.
A leíró statisztikákban általában a pillanat egy olyan mérték, amely egy pontkészlet alakját írja le. A közép középre vonatkozó pillanatokat általában azért használják, mert jobb információkat nyújtanak az eloszlás alakjáról. A 2-es sorrend általában a varianciát jelöli; A 4-es sorrendet használjuk a -hez. Az első rendelési pillanat a mean. Így az összes pillanat gyűjteménye egyedileg írja le az oszlop értékeinek eloszlását.
Max
Megkeresi az oszlopban található maximális értéket.
Középérték
Kiszámítja az oszlopértékek számtani átlagát.
A függvény egyenértékű függvénye Excel AVERAGE.
Átlagos szórás
Kiszámítja az oszlopértékek abszolút szórásának átlagát.
Ez azt jelenti, hogy a rendszer kiszámítja az oszlopban lévő átlagos értéket, és az oszlopban lévő értékek eltérését. Az egyes szórási értékek abszolút értékeinek átlaga az átlageltérés.
Ez a statisztikai adat azt mutatja meg, hogy milyen elterjesztve van a számok oszlopának átlagos szórása.
Középérték
Az oszlopértékek mediánját adja vissza.
A medián egy számoszlop közepén található szám. Ha az oszlopban egyenletes számú szám található, a medián a középső két szám átlaga.
A medián a középt és a módot is a központi trendet ító három statisztikai adat egyike. Ha az értékek szimmetrikusak a átlag körül, a három szám körülbelül azonos lesz. A medián azonban robusztusabb a ki- és kierőlet, mint a közép.
Medián-eltérés
Kiszámítja az oszlop medián-eltérését .
Ez azt jelenti, hogy a rendszer kiszámítja az oszlop mediánját, és az oszlopban lévő egyes értékek eltérését. A rendszer az egyes eltérések értékeinek abszolút értékeinek mediánját veszik.
A medián abszolút szórás más néven MAD, és egy számminta változékonyságának leírására használatos. A MAD megmutatja, hogyan mekkora az elterjesztett érték a számok oszlopának átlagos értékében.
Min
Az oszlopértékek minimális értékét adja vissza.
Mód
Megkeresi az oszlop összes üzemmódját.
A mód az az érték, amely a legtöbbet jelenik meg az oszlopban. Ha egyszerre több érték is megjelenik, az oszlopnak több módja is lehet.
A központi trend mértékeként a mód robusztusabb a ki- és kieső adatokra, mint a középérték, és névleges adatokkal is használható.
Sokaság szórása
Kiszámítja az oszlopértékek sokasági szórását.
Ez a statisztika feltételezi, hogy az oszlopértékek a teljes sokaságot képviselik. Ha az adatok csak mintaadatok a sokaságból, a szórást a Minta szórása alapján kell kiszámítani. Nagy adatkészletek esetén azonban a két statisztika körülbelül egyenlő értékeket ad vissza.
A szórás az oszlop varianciájának négyzetgyökeként van kiszámítva. Ez a statisztika az oszlop változékonyságának mennyiségét rögzíti.
Populáció varianciája
Kiszámítja az oszlopértékek sokasági varianciát.
A variancia azt méri, hogy egy számkészlet mekkora része különbözik. Ha a variancia nulla, akkor minden szám azonos.
Ez a statisztika feltételezi, hogy az értékek oszlopa a teljes sokaságot jelöli. Ha az adatok csak az értékek egy mintáját tartalmazják, akkor a minta varianciáját használva számítsa ki a varianciát.
Ennek megfelelő Excel függvény a VAR.P
.
Termék
Kiszámítja az oszlop elemeinek termékét.
A termék lekért értékében az oszlopban lévő összes számot meg kell kapnia. Az eredmény önmagában nem hasznos leíró statisztikai adatként, de a függvény számos más számításhoz is hasznos.
Tartomány
Kiszámítja az oszlopértékek tartományát. A tartomány a maximális érték és a minimális érték között van definiálva
Minta
Kiszámítja az oszlopértékek mintáját.
A mező az értékek eloszlásának alakját írja le – azaz azt, hogy az értékek eloszlása mennyire csúcsos vagy lapos– a normál eloszláshoz képest.
A normál eloszlás 0.
A magas hőmérsékleti értékek azt jelzik, hogy a valószínűségi tömeg egy csúcs körül vagy az eloszlás farok körül van koncentrálva.
A negatív időértékek viszonylag egyenlott eloszlást jeleznek.
Mintááslottság
Kiszámítja az oszlopértékek mintául vonatkozó elenyőségét.
Az eltolódás azt írja le, hogy az értékek nagy része a középen, balra vagy jobbra tolva van-e. Két eloszlásnak lehet azonos a szórása és a szórása, de nagyon másképpen formázható. Az alakzatot aewness (eltintás) és a torometria (torkosság) karakterrel lehet karakterizálni.
A negatív eltűnés azt jelenti, hogy az eloszlás balra van eltolt.
A 0 a normál eloszlást jelöli.
A pozitív eltoltság azt jelenti, hogy az eloszlás jobbra van eltolt.
Minta szórása
Kiszámítja az oszlopértékek szórásmintáját .
A minta szórása azt méri, hogy az oszlop értékei hogyan vannak elterjesztve a átlagtól. Ez a készletben található adatok értékei és a középérték közötti átlagos távolságot jelöli.
Ez a statisztika feltételezi, hogy az oszlopértékek a sokaság egy mintáját képviselik. Ha az adatok a teljes sokaságot jelölik, a szórást a Population szórása alapján kell kiszámítani.
Ennek megfelelő Excel st függvény. DEV.S.
Minta varianciája
Kiszámítja a minta varianciáját az oszlopértékek esetében.
Ez a metódus feltételezi, hogy az oszlopértékek a sokaság egy mintáját képviselik. Ha az oszlop a teljes sokaságot tartalmazza, akkor a Population standard varianciát kell használnia.
Az egyenértékű függvény Excel VAR.S.
Sum
Kiszámítja az oszlopértékek összegét.
Példák
A dokumentum következő Azure AI Gallery bemutatják, hogyan hozhat létre egy teljes adatkészlet leíró statisztikáit tartalmazó összegző jelentést. Az összefoglaló jelentés csak általános statisztikákat tartalmaz; Azonban mentheti adatkészletként, majd részletesebb statisztikákat adhat hozzá a Compute Elementary Statistics (Alapvető statisztikai adatok kiszámítása) lehetőséggel.
Adatkészlet letöltése az UCI-ból: Az Adatok összegzése modullal összesítő jelentést hozhat létre az adatkészlet összes oszlopára.
Adatkészlet-feldolgozás és -elemzés : Az Adatok összegzése modullal összesítő jelentést hozhat létre az adatkészlet összes oszlopára.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Tipp
A Compute Elementary Statistics modul használata esetén a következő feltételeknek kell teljesülnie :
- A kiválasztott statisztikai adat kiszámításához elegendő számú adatpontnak (sornak) kell lennie. A szórásminta kiszámításához például legalább két adatpont szükséges; Ellenkező esetben az eredmény NaN lesz.
- A bemeneti oszlopoknak numerikusnak vagy logikainak kell lennie.
Alapértelmezés szerint az összes numerikus oszlop ki van jelölve. Ha azonban valamelyik numerikus oszlop kategorikusként van megjelölve, a következő hibaüzenet jelenhet meg: "0056-os hiba: <> Az oszlopnévvel ellátott oszlop nem engedélyezett kategóriába tartozik." A hiba kijavítása érdekében adja hozzá a Metaadatok szerkesztése modul egy példányát, válassza ki a problémás oszlopot, és használja a Kategorikus eltávolítása lehetőséget.
Megvalósítás részletei
A logikai oszlopok a következőképpen vannak feldolgozva:
A MIN logikai AND értékként van kiszámítva.
A MAX logikai OR értékként van kiszámítva.
A RANGE azt ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.
A hiányzó értékeket a rendszer figyelmen kívül hagyja.
Lebegőpontos számítást igénylő statisztikák esetén igaz = 1,0 és hamis = 0,0
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Metódus | Lista | Elemi statisztikai módszer | Kiválaszt egy statisztikai módszert a számításokhoz. Az értékek listájáért lásd a Használat szakaszt. | |
Oszlopkészlet | bármelyik | ColumnSelection (Oszlopválasztás) | NumericAll | Kiválasztja azokat az oszlopokat, amelyekhez ki kell számítani a statisztikai adatokat |
Sorrend | >=1 | Egész szám | 3 | Megadja a központi pillanatrend értékét (csak a k. középső pillanathoz használatos) |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Kimeneti adatkészlet |
Kivételek
Kivétel | Description |
---|---|
0017-es hiba | Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.
Lásd még
Statisztikai függvények
Elemi
Adatok összegzése
A–Z modullista