Elementaire statistieken berekenen

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Hiermee worden opgegeven samenvattingsstatistieken voor geselecteerde gegevenssetkolommen berekend

Categorie: Statistische functies

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Elementaire statistieken berekenen in Machine Learning Studio (klassiek) gebruikt om een samenvattingsrapport te genereren voor uw gegevensset waarin belangrijke statistieken worden vermeld, zoals gemiddelde, standaarddeviatie en het bereik van waarden voor elk van de geselecteerde kolommen.

Dit rapport is handig voor het analyseren van de centrale neiging, spreiding en vorm van gegevens.

Elementaire rekenstatistieken configureren

Voeg de module Compute-elementaire statistieken toe aan uw experiment. U vindt deze module in de categorie Statistische functies in Machine Learning Studio (klassiek).
Verbinding maken gegevensset die de kolommen bevat die u wilt analyseren.
Klik op de vervolgkeuzelijst Methode en kies het type waarde dat u voor elke kolom wilt berekenen.

Zie de sectie Ondersteunde statistieken voor een volledige lijst met beschikbare statistieken en wat ze betekenen.
De waarde die u hebt geselecteerd in de vervolgkeuzelijst Methode wordt standaard berekend voor alle kolommen in de gegevensset die een numeriek gegevenstype hebben. Als een kolom waarden bevat die verhinderen dat de waarde wordt berekend, wordt er een foutmelding weergegeven en wordt het rapport niet gemaakt.

Om deze fout te voorkomen, gebruikt u de kolom selector om de numerieke kolommen te kiezen waarvoor u een rapport wilt. Alle kolommen die u kiest, moeten numeriek zijn.
Voer het experiment uit.

Resultaten

Het gegenereerde rapport bevat de naam van elke kolom en de statistiek die is berekend. De volgende tabel bevat bijvoorbeeld statistieken die zijn gegenereerd voor de kolom mpg .

DeviationSquared(mpg)	Max(mpg)	Min(mpg)
9674.312	25.21951	13

Tip

Telkens wanneer u compute-elementaire statistieken hebt uitgevoerd, kan er slechts één samenvattingsstatistiek worden gegenereerd voor elk van de geselecteerde kolommen. U kunt echter de modules Kolommen toevoegen of Rijen toevoegen gebruiken om de resultaten samen te voegen in één tabel, zoals in het vorige voorbeeld.

Ondersteunde statistieken

Deze module ondersteunt de volgende standaard beschrijvende statistieken.

Afwijking in het kwadraat

Berekent de kwadraatafwijking van de kolomwaarden. Ook wel bekend als de som van vierkanten.

Kwadraatafwijking is een meting van hoe ver waarden van het gemiddelde worden verspreid.

Geometrisch gemiddelde

Berekent het geometrische gemiddelde van de kolomwaarden.

Het geometrische gemiddelde kan worden gebruikt om de centrale neiging van een set getallen te meten. Vergeleken met het rekenkundige gemiddelde wordt dit minder beïnvloed door een klein aantal extreme waarden. Het kan ook worden gebruikt om metingen op verschillende schalen te vergelijken, omdat de schalen van de getallen die worden vergeleken effectief worden genormaliseerd. De geometrische middelen worden soms gebruikt om samengestelde jaarlijkse groeipercentages te schatten.

De equivalente functie in Excel is GEOMEAN.

Gemiddelde van Den

Berekent het gemiddelde van de kolomwaarden.

Voor het berekenen van het gemiddelde worden alle waarden geconverteerd naar hun wederzijdse waarden, waarna het gemiddelde van deze waarden wordt genomen. Het verticale gemiddelde is het wederzijdse van dat gemiddelde. Als de kolomwaarden positief zijn, worden grotere getallen minder gewogen dan kleinere getallen.

Het gemiddelde is altijd lager dan het geometrische gemiddelde, dat altijd lager is dan het rekenkundige gemiddelde. Het gemiddelde is handig voor het gemiddelde van variabelen die tarieven vertegenwoordigen, zoals snelheid (afstand gedurende een periode) of verkoop per kwartaal.

De equivalente functie in Excel is HARMEAN.

Interquartiele afstand

Berekent het verschil tussen de eerste en de laatste kwartielen van de kolomwaarden. Wordt ook wel het kwartielbereik genoemd. Wanneer het kwartiel tussen twee getallen valt, is de kwartielwaarde het gemiddelde van de twee waarden aan beide zijden van de knip.

De waarde van het kwartiel verdeelt de kolom met waarden in vier groepen met een gelijk aantal waarden. Een kwart van de waarden is dus kleiner dan of gelijk aan het 25e percentiel. Drie kwartalen van de waarden zijn kleiner dan of gelijk aan het 75e percentiel. Door het kwartielbereik te bekijken, krijgt u een idee van hoe breed de gegevenswaarden zijn verspreid.

K-centraal moment

Berekent het centrale K-moment voor de kolomwaarden.

Bij het berekenen van het K-centrale moment moet u ook de Order opgeven, wat de waarde van k betekent. De waarde van k kan variëren van 0 tot elke toegestane geheel getalwaarde, hoewel hogere waarden in de volgorde over het algemeen niet zinvol zijn.

Over het algemeen is in beschrijvende statistieken een moment een meting die de vorm van een set punten beschrijft. Centrale momenten zijn momenten over het gemiddelde, die meestal worden gebruikt omdat ze betere informatie bieden over de vorm van de distributie. Een volgorde van 2 vertegenwoordigt doorgaans de afwijking; een order van 4 wordt gebruikt voor het maken van een account. Het eerste bestelmoment is het gemiddelde. De verzameling van alle momenten beschrijft dus een unieke beschrijving van de verdeling van waarden in de kolom.

Max

Zoekt de maximumwaarde in de kolom.

Gemiddeld

Berekent het rekenkundige gemiddelde van de kolomwaarden.

De equivalente functie in Excel is AVERAGE.

Gemiddelde afwijking

Berekent de gemiddelde absolute afwijking voor de kolomwaarden.

Dat wil zeggen dat het gemiddelde wordt berekend voor de kolom en de afwijking die wordt berekend voor elke waarde in de kolom. Het gemiddelde van de absolute waarden van de afzonderlijke deviatiewaarden is de gemiddelde afwijking.

Deze statistiek vertelt u hoe verspreid is vanaf het gemiddelde dat uw kolom met getallen is.

Mediaan

Retourneert de mediaan van de kolomwaarden.

De mediaan is het getal in het midden van een kolom met getallen. Als de kolom een even aantal getallen heeft, is de mediaan het gemiddelde van de twee getallen in het midden.

De mediaan, samen met het gemiddelde en de modus, is een van de drie statistieken die de centrale neiging meet. Als de waarden symmetrisch rond het gemiddelde zijn, zijn de drie getallen ongeveer hetzelfde. De mediaan is echter krachtiger voor uitbijten dan het gemiddelde.

Mediaanafwijking

Berekent de mediaanafwijking voor de kolom.

Dat wil zeggen dat de mediaan wordt berekend voor de kolom en de afwijking die wordt berekend voor elke waarde in de kolom. De mediaanwaarde van de absolute waarden van de afzonderlijke deviatiewaarden wordt genomen.

De mediaan absolute afwijking wordt ook wel BEKEND als GEK en wordt gebruikt om de variabiliteit van een steekproef van getallen te beschrijven. MET DEEED weet u hoe verspreid van het gemiddelde van uw kolom met getallen.

Min

Retourneert de minimumwaarde van de kolomwaarden.

Modus

Zoekt alle modi voor de kolom.

De modus is de waarde die het meest in de kolom wordt weergegeven. Als meerdere waarden hetzelfde aantal keer worden weergegeven, kan de kolom meerdere modi hebben.

Als maat voor de centrale neiging is de modus krachtiger voor uitbijten dan het gemiddelde en kan deze ook worden gebruikt met nominale gegevens.

Standaardafwijking populatie

Berekent de standaardafwijking van de populatie voor de kolomwaarden.

Deze statistiek gaat ervan uit dat de kolomwaarden de hele populatie vertegenwoordigen. Als uw gegevens slechts een steekproef van de populatie zijn, moet u de standaardafwijking berekenen met behulp van De standaardafwijking van het voorbeeld. In grote gegevenssets retourneren de twee statistieken echter ongeveer gelijke waarden.

De standaardafwijking wordt berekend als de vierkantswortel van de kolomvariantie. Deze statistiek legt de variabiliteit in de kolom vast.

Afwijking van populatie

Berekent de afwijking van de populatie voor de kolomwaarden.

Variantie meet hoeveel een set getallen wordt uitgespreid. Als variantie nul is, zijn alle getallen hetzelfde.

Deze statistiek gaat ervan uit dat de kolom met waarden de hele populatie vertegenwoordigt. Als uw gegevens slechts een voorbeeld van de waarden bevatten, moet u variantie berekenen met behulp van Voorbeeldvariantie.

De equivalente Excel functie is VAR.P.

Product

Berekent het product van de elementen van de kolom.

Als u het product wilt op halen, kunt u alle getallen in de kolom meerdere keren gebruiken. Het resultaat is op zichzelf niet nuttig als beschrijvende statistiek, maar de functie is nuttig voor tal van andere berekeningen.

Bereik

Berekent het bereik van de kolomwaarden. Het bereik wordt gedefinieerd als de maximumwaarde min de minimumwaarde

Voorbeeld van een

Berekent het voorbeeld voor de kolomwaarden.

In Deze beschrijving wordt de vorm van de verdeling van waarden beschreven, dat wil zeggen, hoe pieken of plat de verdeling van waarden is, vergeleken met de normale verdeling.

De normale verdeling heeft een waarde van 0.
Hoge troekanswaarden geven aan dat de waarschijnlijkheids massa is gericht rond een piek of in de staart van de distributie.
Negatieve athesewaarden geven een relatief platte verdeling aan.

Ascheefheid van voorbeelden

Berekent de ascheefheid van het voorbeeld voor de kolomwaarden.

Scheefheid beschrijft of het merendeel van de waarden zich in het midden, naar links of naar rechts verplaatst. Twee distributies hebben mogelijk hetzelfde gemiddelde en dezelfde standaarddeviatie, maar hebben een heel andere vorm. U kunt scheefheid en nufheid gebruiken om de vorm te karakteriseren.

Negatieve scheefheidswaarden betekent dat de verdeling aan de linkerkant scheve waarden heeft.
0 geeft de normale verdeling aan.
Positieve ascheefheidswaarden betekenen dat de verdeling aan de rechterkant scheve waarden heeft.

Standaardafwijking van voorbeeld

Berekent de standaardafwijking van het voorbeeld voor de kolomwaarden.

De standaarddeviatie van het voorbeeld meet hoe de waarden in de kolom zijn verspreid van het gemiddelde. Het vertegenwoordigt de gemiddelde afstand tussen de waarden van de gegevens in de set en het gemiddelde.

Deze statistiek gaat ervan uit dat de kolomwaarden een steekproef van de populatie vertegenwoordigen. Als uw gegevens de gehele populatie vertegenwoordigen, moet u de standaardafwijking berekenen met behulp van de standaardafwijking van de populatie.

De equivalente Excel functie is ST. DEV.S.

Voorbeeldvariantie

Berekent de steekproefvariantie voor de kolomwaarden.

Bij deze methode wordt ervan uitgenomen dat de kolomwaarden een steekproef van de populatie vertegenwoordigen. Als de kolom de volledige populatie bevat, moet u Standaardvariantie populatie gebruiken.

De equivalente Excel functie is VAR.S.

Sum

Berekent de som van de kolomwaarden.

Voorbeelden

De volgende experimenten in de Azure AI Gallery laten zien hoe u een samenvattingsrapport kunt maken dat beschrijvende statistieken voor een hele gegevensset bevat. Het samenvattingsrapport bevat alleen algemene statistieken; U kunt deze echter opslaan als een gegevensset en vervolgens meer gedetailleerde statistieken toevoegen met behulp van de opties in Elementaire statistieken berekenen.

Gegevensset downloaden van UCI: De module Gegevens samenvatten wordt gebruikt om een samenvattingsrapport te genereren voor alle kolommen in de gegevensset.
Verwerking en analyse van gegevenssets: De module Gegevens samenvatten wordt gebruikt om een samenvattingsrapport te genereren voor alle kolommen in de gegevensset.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Tip

Aan de volgende voorwaarden moet worden voldaan wanneer u de module Elementaire statistieken berekenen gebruikt:

Er moet voldoende gegevenspunten (rijen) zijn om de geselecteerde statistiek te berekenen. Voor het berekenen van de standaardafwijking van het voorbeeld zijn bijvoorbeeld ten minste twee gegevenspunten vereist; anders is het resultaat NaN.
Invoerkolommen moeten numeriek of Booleaanse waarde zijn.

Standaard worden alle numerieke kolommen geselecteerd. Als numerieke kolommen echter zijn gemarkeerd als categorisch, krijgt u mogelijk de volgende foutmelding: Fout 0056: <> Kolom met naamkolomnaam staat niet in een toegestane categorie. Als u de fout wilt corrigeren, voegt u een exemplaar van de module Edit Metadata toe, selecteert u de kolom met het probleem en gebruikt u de optie Categorisch verwijderen.

Implementatiegegevens

Booleaanse kolommen worden als volgt verwerkt:

MIN wordt berekend als logische AND.
MAX wordt berekend als logische OR.
BEREIK controleert of het aantal unieke waarden in de kolom gelijk is aan 2.
Ontbrekende waarden worden genegeerd.
Voor statistieken waarvoor drijvende-puntberekeningen zijn vereist, True = 1.0 en False = 0,0

Verwachte invoer

Naam	Type	Description
Gegevensset	Gegevenstabel	Invoerset

Moduleparameters

Name	Bereik	Type	Standaard	Beschrijving
Methode	Lijst	Methode voor elementaire statistieken		Selecteert een statistische methode die moet worden gebruikt in berekeningen. Zie de sectie How to use voor een lijst met waarden.
Kolomset	alle	ColumnSelection	NumericAll	Selecteert de kolommen waarvoor de statistiek moet worden berekend
Volgorde	>= 1	Geheel getal	3	Hiermee geeft u een waarde op voor de volgorde centraal moment (alleen gebruikt voor het KTH Central-moment)

Uitvoer

Naam	Type	Description
Gegevensset met resultaten	Gegevenstabel	Uitvoerset

Uitzonderingen

Uitzondering	Description
Fout 0017	Uitzondering treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Statistische functies
Elementaire
Gegevens samenvatten
Lijst met A-Z-modules

Delen via