Delen via


Gegevens samenvatten

In dit artikel wordt een onderdeel van Azure Machine Learning Designer beschreven.

Gebruik het onderdeel Gegevens samenvatten om een set standaard statistische metingen te maken die elke kolom in de invoertabel beschrijven.

Samenvattingsstatistieken zijn handig als u de kenmerken van de volledige gegevensset wilt begrijpen. U moet bijvoorbeeld het volgende weten:

  • Hoeveel ontbrekende waarden zijn er in elke kolom?
  • Hoeveel unieke waarden staan er in een functiekolom?
  • Wat is de gemiddelde en standaarddeviatie voor elke kolom?

Het onderdeel berekent de belangrijke scores voor elke kolom en retourneert een rij met samenvattingsstatistieken voor elke variabele (gegevenskolom) die als invoer wordt geleverd.

Samenvattende gegevens configureren

  1. Voeg het onderdeel Gegevens samenvatten toe aan uw pijplijn. U vindt dit onderdeel in de categorie Statistische functies in de ontwerpfunctie.

  2. Verbind de gegevensset waarvoor u een rapport wilt genereren.

    Als u slechts enkele kolommen wilt rapporteren, gebruikt u het onderdeel Select Columns in Dataset om een subset van kolommen te projecteren om mee te werken.

  3. Er zijn geen extra parameters vereist. Standaard analyseert het onderdeel alle kolommen die als invoer worden geleverd en, afhankelijk van het type waarden in de kolommen, een relevante set statistieken, zoals beschreven in de sectie Resultaten .

  4. Verzend de pijplijn.

Resultaten

Het rapport van het onderdeel kan de volgende statistieken bevatten.

Kolomnaam Beschrijving
Functie Naam van de kolom
Tellen Aantal rijen
Aantal unieke waarden Aantal unieke waarden in kolom
Aantal ontbrekende waarden Aantal unieke waarden in kolom
Min Laagste waarde in kolom
Max Hoogste waarde in kolom
Bedoelen Gemiddelde van alle kolomwaarden
Gemiddelde afwijking Gemiddelde afwijking van kolomwaarden
1e kwartiel Waarde bij eerste kwartiel
Mediaan Mediaankolomwaarde
3e kwartiel Waarde bij derde kwartiel
Wijze Modus van kolomwaarden
Bereik Geheel getal dat het aantal waarden tussen de maximum- en minimumwaarden aangeeft
Voorbeeldvariantie Afwijking voor kolom; zie Opmerking
Voorbeeld van standaarddeviatie Standaarddeviatie voor kolom; zie Opmerking
Asymmetrische steekproef Scheefheid voor kolom; zie Opmerking
Voorbeeld van Kurtosis Kurtosis voor kolom; zie Opmerking
P0.5 0,5% percentiel
P1 1% percentiel
P5 5% percentiel
P95 Percentiel van 95%
P99.5 Percentiel van 99,5%

Technische notities

  • Voor niet-numerieke kolommen worden alleen de waarden voor aantal, aantal unieke waarden en ontbrekende waarden berekend. Voor andere statistieken wordt een null-waarde geretourneerd.

  • Kolommen die Booleaanse waarden bevatten, worden verwerkt met behulp van deze regels:

    • Bij het berekenen van Min wordt een logische AND toegepast.

    • Bij het berekenen van Max wordt een logische OR toegepast

    • Bij het berekenen van bereik controleert het onderdeel eerst of het aantal unieke waarden in de kolom gelijk is aan 2.

    • Bij het berekenen van een statistiek waarvoor berekeningen met drijvende komma zijn vereist, worden waarden van Waar behandeld als 1,0 en worden de waarden van Onwaar behandeld als 0,0.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.