Delen via


Discrete waarden vervangen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Discrete waarden uit één kolom vervangen door numerieke waarden op basis van een andere kolom

Categorie: Statistische functies

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Discrete waarden vervangen in Machine Learning Studio (klassiek) gebruikt om een waarschijnlijkheidsscore te genereren die kan worden gebruikt om een discrete waarde weer te geven. Deze score kan nuttig zijn om inzicht te krijgen in de informatiewaarde van de afzonderlijke waarden.

Hoe werkt het?

U selecteert een kolom die de discrete (of categorische) waarde bevat en selecteert vervolgens een andere kolom die u als referentie wilt gebruiken.

Afhankelijk van of de tweede kolom categorisch of niet-categorisch is, berekent de module een van de volgende waarden:

  • De voorwaardelijke waarschijnlijkheid voor de tweede kolom op basis van de waarden in de eerste kolom.
  • Het gemiddelde en de standaarddeviatie voor elke groep waarden in de eerste kolom.

Met de module wordt zowel een gegevensset met de scores als een functie uitgevoerd die u kunt opslaan en toepassen op andere gegevenssets.

Discrete waarden vervangen configureren

Tip

U wordt aangeraden met slechts één paar kolommen tegelijk te werken. De module geeft geen foutmelding als u meerdere kolommen selecteert om te analyseren. Als u echter meerdere kolommen kiest, worden deze in de praktijk gematcht door een interne heuristiek, niet op volgorde van selectie.

Daarom raden we u aan om elke keer één paar kolommen te selecteren, één voor Discrete kolommen en één voor Vervangingskolommen.

Als u scores voor meerdere kolommen wilt genereren, gebruikt u afzonderlijke exemplaren van Discrete waarden vervangen.

  1. Voeg de module Discrete waarden vervangen toe aan uw experiment. U vindt deze module in de groep Statistische functies in de lijst met experimentitems in Machine Learning Studio (klassiek).

  2. Verbinding maken gegevensset met ten minste één kolom categorische gegevens.

  3. Discrete kolommen: klik op Launch column selector om een kolom te kiezen die discrete (of categorische) waarden bevat.

    Afzonderlijke kolommen die u selecteert, moeten categorisch zijn. Als er een foutmelding wordt weergegeven, gebruikt u de module Metagegevens bewerken om het kolomtype te wijzigen.

  4. Vervangende kolommen: klik op Launch column selector om de kolom te kiezen die de waarden bevat die moeten worden gebruikt bij het berekenen van een vervangingsscore.

    Als u meerdere kolommen voor Discrete kolommen selecteert, moet u een gelijk aantal vervangende kolommen kiezen.

  5. Voer het experiment uit.

    Notitie

    U kunt niet kiezen welke statistische functie u wilt toepassen. De module berekent een geschikte meting op basis van het gegevenstype van de kolom die is geselecteerd voor vervangingskolom.

Resultaten

De module berekent een van de volgende waarden voor elk paar kolommen:

  • Als de tweede kolom categorische waarden bevat, berekent de module de voorwaardelijke waarschijnlijkheid van de tweede kolom op basis van de waarden in de eerste kolom.

    Stel bijvoorbeeld dat u hebt gekozen uit occupation de gegevensset Volkstelling als de discrete kolom en als gender de vervangende kolom kiest. De uitvoer van de module zou het volgende zijn:

    P(gender | occupation)

  • Als de tweede kolom niet-categorische waarden bevat die kunnen worden geconverteerd naar getallen (zoals numerieke of Booleaanse waarden die niet als categorisch zijn gemarkeerd), geeft de module het gemiddelde en de standaarddeviatie voor elke groep waarden in de eerste kolom weer.

    Stel dat u gebruikt als occupation de kolom Discrete en dat de andere kolom de numerieke kolom is hours-per-week. In de module worden de volgende nieuwe waarden uitgevoerd:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Naast de waarschijnlijkheidsscores geeft de module ook een getransformeerde gegevensset weer. In deze gegevensset wordt de kolom die is geselecteerd als vervangende kolommen vervangen door een kolom met de berekende scores.

Tip

De kolommen in de bronset worden niet daadwerkelijk gewijzigd of verwijderd door de bewerking; De scorekolommen zijn nieuwe kolommen die worden gegenereerd door de module en de uitvoer in plaats van de brongegevens.

Gebruik de module Kolommen toevoegen om de bronwaarden samen met de waarschijnlijkheidsscores weer te geven.

Voorbeelden

Het gebruik van Discrete waarden vervangen kan worden geïllustreerd door enkele eenvoudige voorbeelden.

Voorbeeld 1: een categorische waarde vervangen door een waarschijnlijkheidsscore

De volgende tabel bevat een categorische kolom X en een kolom Y met waar/onwaar-waarden die worden behandeld als categorische waarden. Wanneer u Discrete waarden vervangen gebruikt, wordt een voorwaardelijke waarschijnlijkheidsscore berekend voor de waarschijnlijkheid van Y op basis van X, zoals wordt weergegeven in de derde kolom.

X J P(Y| X)
Blue 0 P(Y=0|X=Blue) = 0.5
Blue 1 P(Y=1|X=Blue) = 0.5
Green 0 P(Y=0|X=Green) = 2/3
Green 0 P(Y=0|X=Green) = 2/3
Green 1 P(Y=1|X=Green) = 1/3
Red 0 P(Y=0|X=Red) = .75
Red 0 P(Y=0|X=Red) = .75
Red 1 P(Y=1|X=Red) = .25
Red 0 P(Y=0|X=Red) = .75

Voorbeeld 2: gemiddelde en standaardafwijking berekenen op basis van een niet-categorische kolom

Wanneer de tweede kolom numeriek is, berekent Discrete waarden vervangen het gemiddelde en de standaardafwijking in plaats van een voorwaardelijke waarschijnlijkheidsscore.

Het volgende voorbeeld is gebaseerd op de voorbeeldgegevensset Auto Prices , die als volgt is vereenvoudigd:

  • Er is een kleine subset van kolommen geselecteerd.

  • Alleen de bovenste 30 rijen zijn geëxtraheerd met behulp van de optie Head van de module Partition en Sample .

  • De module Discrete waarden vervangen is gebruikt om het gemiddelde en de standaarddeviatie voor het gewicht van de voertuigrand te berekenen. gegeven de categorische kolom, num-of-doors.

De volgende tabel illustreert de resultaten:

Hoofdtekst Num-of-doors Het gewicht van de drempel Gemiddelde (drempelgewicht| aantal deuren) Std-Dev(weight-|num-of-doors)
std twee 2548 2429.785714 507.45699
std Vier 2337 2625.6 493.409877
std twee 2507 2429.785714 507.45699
Turbo Vier 3086 2625.6 5 493.409877
std Vier 1989 2625.6 493.409877
Turbo 2191
std Vier 2535 2625.6 493.409877

U kunt het gemiddelde voor elke groep waarden controleren met behulp van de AVERAGEIF functie in Excel.

Voorbeeld 3: Ontbrekende waarden verwerken

In dit voorbeeld wordt gedemonstreerd hoe ontbrekende waarden (null-waarden) worden doorgegeven aan de resultaten wanneer voorwaardelijke waarschijnlijkheidsscores worden berekend.

  • Als de discrete waardekolom en de berekeningszoekkolom ontbrekende waarden bevatten, worden de ontbrekende waarden doorgegeven aan de nieuwe kolom.

  • Als de discrete waardekolom alleen ontbrekende waarden bevat, kan de module de kolom niet verwerken en wordt er een foutbericht weergegeven.

X J P(Y| X)
1 Waar P(Y=true|X=1) = 1/2
1 Niet waar P(Y=false|X=1) = 1/2
2 Waar P(Y=true|X=2) = 1/3
2 Niet waar P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Technische opmerkingen

  • U moet ervoor zorgen dat afzonderlijke kolommen die u wilt vervangen categorisch zijn, anders retourneert de module een fout. Gebruik hiervoor de module Metagegevens bewerken.

  • Als de tweede kolom Booleaanse waarden bevat, worden True-False waarden verwerkt als numeriek met FALSE en TRUE gelijk aan respectievelijk 0 en 1.

  • De formule voor de standaardafwijkingkolom berekent de standaardafwijking van de populatie. Daarom wordt N gebruikt in de noemer in plaats van (N - 1).

  • Als de tweede kolom niet-categorische gegevens (numerieke of Booleaanse waarden) bevat, berekent de module het gemiddelde en de standaardafwijking van Y voor de opgegeven waarde van X.

    Dat wil zeggen, voor elke rij in de gegevensset die is geïndexeerd door i:

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Als de tweede kolom categorische gegevens of waarden bevat die noch numeriek noch Booleaanse waarden zijn, berekent de module de voorwaardelijke waarschijnlijkheid van Y voor de opgegeven waarde van X.

  • Booleaanse waarden in de tweede kolom worden verwerkt als numerieke gegevens met FALSE en TRUE die gelijk zijn aan respectievelijk 0 en 1.

  • Als er een klasse in de discrete kolom staat, zodat een rij met een ontbrekende waarde aanwezig is in de tweede kolom, is de som van voorwaardelijke waarschijnlijkheden binnen de klasse minder dan één.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Moduleparameters

Name Bereik Type Standaard Beschrijving
Discrete kolommen Alle ColumnSelection Selecteert de kolommen die discrete waarden bevatten
Vervangingskolommen Alle ColumnSelection Selecteert de kolommen die de gegevens bevatten die moeten worden gebruikt in plaats van de discrete waarden

Uitvoerwaarden

Naam Type Description
Aanvullende gegevensset Gegevenstabel Gegevensset met vervangen gegevens
Functie Transformeren ITransform-interface Definitie van de transformatiefunctie, die kan worden toegepast op andere gegevenssets

Uitzonderingen

Uitzondering Description
Fout 0001 Er treedt een uitzondering op als een of meer opgegeven kolommen van de gegevensset niet kunnen worden gevonden.
Fout 0003 Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0020 Uitzondering treedt op als het aantal kolommen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is.
Fout 0021 Uitzondering treedt op als het aantal rijen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is.
Fout 0017 Uitzondering treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.
Fout 0026 Uitzondering treedt op wanneer kolommen met dezelfde naam niet zijn toegestaan.
Fout 0022 Uitzondering treedt op als het aantal geselecteerde kolommen in de invoerset niet gelijk is aan het verwachte aantal.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Statistische functies