Delen via


Gegevens samenvatten

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Genereert een basisrapport met beschrijvende statistieken voor de kolommen in een gegevensset

Categorie: Statistische functies

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Gegevens samenvatten in Machine Learning Studio (klassiek) gebruikt om een set standaard statistische metingen te maken die elke kolom in de invoertabel beschrijven.

Dergelijke samenvattingsstatistieken zijn handig als u de kenmerken van de volledige gegevensset wilt begrijpen. U moet bijvoorbeeld het volgende weten:

  • Hoeveel ontbrekende waarden zijn er in elke kolom?
  • Hoeveel unieke waarden zijn er in een functiekolom?
  • Wat is het gemiddelde en de standaarddeviatie voor elke kolom?

De module berekent de belangrijke scores voor elke kolom en retourneert een rij met samenvattingsstatistieken voor elke variabele (gegevenskolom) die als invoer wordt opgegeven.

Tip

Mogelijk weet u al dat u een korte lijst met statistieken kunt krijgen met behulp van de optie Visualiseren in Studio (klassiek). Deze visualisatie wordt echter gemaakt op basis van een aantal bovenste rijen. De module Gegevens samenvatten berekent daarentegen de statistieken voor alle rijen met gegevens.

Gegevens samenvatten gebruiken

  1. Voeg de module Gegevens samenvatten toe aan uw experiment. U vindt deze module in de categorie Statistische functies in Studio (klassiek).

  2. Verbinding maken de gegevensset waarvoor u een rapport wilt genereren.

    Als u slechts over enkele kolommen wilt rapporteren, gebruikt u de module Kolommen in gegevensset selecteren om een subset kolommen te projecten om mee te werken.

  3. Er zijn geen aanvullende parameters vereist. De module analyseert standaard alle kolommen die zijn opgegeven als invoer en levert, afhankelijk van het type waarden in de kolommen, een relevante set statistieken zoals beschreven in de sectie Resultaten.

  4. Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.

Resultaten

Het rapport van de module kan de volgende statistieken bevatten.

  • De exacte statistieken die worden gegenereerd, zijn afhankelijk van het kolomgegevenstype. Zie de sectie Technische notities voor meer informatie.

  • Er wordt van uitgegaan dat de exemplaren deel uitmaken van een representatieve steekproef van een populatie. Als u statistieken wilt berekenen voor een populatie, gebruikt u de opties in de module Compute Statistics, waarmee u steekproef- of populatiestatistieken kunt berekenen.

Kolomnaam Beschrijving
Functie Naam van de kolom
Count Aantal van alle rijen
Aantal unieke waarden Aantal unieke waarden in kolom
Aantal ontbrekende waarden Aantal unieke waarden in kolom
Min Laagste waarde in kolom
Max Hoogste waarde in kolom
Bedoel Gemiddelde van alle kolomwaarden
Gemiddelde afwijking Gemiddelde afwijking van kolomwaarden
1e kwartiel Waarde op het eerste kwartiel
Mediaan Mediaankolomwaarde
Derde kwartiel Waarde op derde kwartiel
Modus Modus van kolomwaarden
Bereik Geheel getal dat het aantal waarden tussen de maximum- en minimumwaarden vertegenwoordigt
Voorbeeldvariantie Variantie voor kolom; zie Opmerking
Standaardafwijking van voorbeeld Standaarddeviatie voor kolom; zie Opmerking
Voorbeeld van scheefheid Ascheefheid voor kolom; zie Opmerking
Voorbeeld van Eendje Hadoe voor kolom; zie Opmerking
P0.5 0,5% percentiel
P1 1% percentiel
P5 5% percentiel
P95 95% percentiel
P99.5 99,5% percentiel

Tip

Voer het statistiekenrapport uit als een tabellaire gegevensset, zodat u de gegevens in BI-rapportagehulpprogramma's kunt gebruiken of de waarden kunt gebruiken als invoer voor een andere bewerking in het experiment.

Voorbeelden

Voor voorbeelden van het gebruik van de module Gegevens samenvatten in een experiment, zie de Azure AI Gallery:

Technische opmerkingen

  • Voor numerieke en Booleaanse kolommen kunt u het gemiddelde, de mediaan, de modus en de standaarddeviatie als uitvoer gebruiken.

  • Voor niet-numerieke kolommen worden alleen de waarden voor Aantal, Uniek waarde aantal en Aantal ontbrekende waarden berekend. Voor andere statistieken wordt een null-waarde geretourneerd.

  • Kolommen die Booleaanse waarden bevatten, worden verwerkt met behulp van deze regels:

    • Bij het berekenen van Min wordt een logische AND toegepast.

    • Bij het berekenen van het maximum wordt een logische OR toegepast

    • Bij het berekenen van Bereik controleert de module eerst of het aantal unieke waarden in de kolom gelijk is aan 2.

    • Bij het berekenen van statistische gegevens die drijvende-puntberekeningen vereisen, worden de waarden van Waar behandeld als 1.0 en worden de waarden onwaar behandeld als 0.0.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Uitvoer

Naam Type Description
Gegevensset met resultaten Gegevenstabel Een profiel van de invoergegevensset die beschrijvende statistieken bevat

Uitzonderingen

Uitzondering Description
Fout 0003 Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0020 Uitzondering treedt op als het aantal kolommen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is.
Fout 0021 Uitzondering treedt op als het aantal rijen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Statistische functies
Elementaire statistieken berekenen