Onderdeel Ontbrekende gegevens opschonen

In dit artikel wordt een onderdeel in azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om ontbrekende waarden te verwijderen, te vervangen of af te maken.

Gegevenswetenschappers controleren vaak gegevens op ontbrekende waarden en voeren vervolgens verschillende bewerkingen uit om de gegevens te corrigeren of nieuwe waarden in te voegen. Het doel van dergelijke opschoonbewerkingen is om problemen te voorkomen die worden veroorzaakt door ontbrekende gegevens die zich kunnen voordoen bij het trainen van een model.

Dit onderdeel ondersteunt meerdere typen bewerkingen voor het 'opschonen' van ontbrekende waarden, waaronder:

  • Ontbrekende waarden vervangen door een tijdelijke aanduiding, gemiddelde of andere waarde
  • Rijen en kolommen met ontbrekende waarden volledig verwijderen
  • Waarden afleiden op basis van statistische methoden

Als u dit onderdeel gebruikt, wordt de brongegevensset niet gewijzigd. In plaats daarvan wordt er een nieuwe gegevensset in uw werkruimte gemaakt die u in de volgende werkstroom kunt gebruiken. U kunt de nieuwe, opgeschoonde gegevensset ook opslaan voor hergebruik.

Dit onderdeel voert ook een definitie uit van de transformatie die wordt gebruikt om de ontbrekende waarden op te schonen. U kunt deze transformatie opnieuw gebruiken voor andere gegevenssets met hetzelfde schema met behulp van het onderdeel Transformatie toepassen .

Ontbrekende gegevens opschonen gebruiken

Met dit onderdeel kunt u een opschoonbewerking definiëren. U kunt de opschoonbewerking ook opslaan, zodat u deze later kunt toepassen op nieuwe gegevens. Zie de volgende secties over het maken en opslaan van een opschoonproces:

Belangrijk

De opschoonmethode die u gebruikt voor het afhandelen van ontbrekende waarden kan uw resultaten aanzienlijk beïnvloeden. We raden u aan om te experimenteren met verschillende methoden. Houd rekening met de reden voor het gebruik van een bepaalde methode en de kwaliteit van de resultaten.

Ontbrekende waarden vervangen

Telkens wanneer u het onderdeel Ontbrekende gegevens opschonen toepast op een set gegevens, wordt dezelfde opschoonbewerking toegepast op alle kolommen die u selecteert. Als u verschillende kolommen wilt opschonen met verschillende methoden, gebruikt u daarom afzonderlijke exemplaren van het onderdeel.

  1. Voeg het onderdeel Clean Missing Data toe aan uw pijplijn en verbind de gegevensset met ontbrekende waarden.

  2. Als u kolommen wilt opschonen, kiest u de kolommen met de ontbrekende waarden die u wilt wijzigen. U kunt meerdere kolommen kiezen, maar u moet dezelfde vervangingsmethode gebruiken in alle geselecteerde kolommen. Daarom moet u meestal tekenreekskolommen en numerieke kolommen afzonderlijk opschonen.

    Als u bijvoorbeeld wilt controleren op ontbrekende waarden in alle numerieke kolommen:

    1. Selecteer het onderdeel Ontbrekende gegevens opschonen en klik op Kolom bewerken in het rechterdeelvenster van het onderdeel.

    2. Voor Opnemen selecteert u Kolomtypen in de vervolgkeuzelijst en selecteert u vervolgens Numeriek.

    Elke reinigings- of vervangingsmethode die u kiest, moet van toepassing zijn op alle kolommen in de selectie. Als de gegevens in een kolom niet compatibel zijn met de opgegeven bewerking, retourneert het onderdeel een fout en stopt de pijplijn.

  3. Geef voor Minimale verhouding ontbrekende waarde het minimale aantal ontbrekende waarden op dat is vereist voor de bewerking die moet worden uitgevoerd.

    U gebruikt deze optie in combinatie met de verhouding maximale ontbrekende waarde om de voorwaarden te definiëren waaronder een opschoonbewerking wordt uitgevoerd op de gegevensset. Als er te veel of te weinig rijen zijn die waarden missen, kan de bewerking niet worden uitgevoerd.

    Het getal dat u invoert, vertegenwoordigt de verhouding tussen ontbrekende waarden en alle waarden in de kolom. De eigenschap Minimale ontbrekende waardeverhouding is standaard ingesteld op 0. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als er slechts één waarde ontbreekt.

    Waarschuwing

    Elke kolom moet aan deze voorwaarde voldoen om de opgegeven bewerking toe te passen. Stel dat u drie kolommen hebt geselecteerd en vervolgens de minimale verhouding van ontbrekende waarden instelt op ,2 (20%), terwijl slechts één kolom daadwerkelijk 20% ontbrekende waarden bevat. In dit geval is de opschoonbewerking alleen van toepassing op de kolom met meer dan 20% ontbrekende waarden. Daarom zouden de andere kolommen ongewijzigd blijven.

    Als u twijfelt of ontbrekende waarden zijn gewijzigd, selecteert u de optie Indicatorkolom voor ontbrekende waarde genereren. Er wordt een kolom toegevoegd aan de gegevensset om aan te geven of elke kolom al dan niet voldoet aan de opgegeven criteria voor het minimum- en maximumbereik.

  4. Geef bij Maximale verhouding ontbrekende waarde het maximum aantal ontbrekende waarden op dat aanwezig kan zijn voor de bewerking die moet worden uitgevoerd.

    U kunt bijvoorbeeld alleen ontbrekende waarden vervangen als 30% of minder van de rijen ontbrekende waarden bevatten, maar de waarden ongewijzigd laten als meer dan 30% van de rijen ontbrekende waarden bevatten.

    U definieert het getal als de verhouding tussen ontbrekende waarden en alle waarden in de kolom. Standaard is de verhouding Maximale ontbrekende waarde ingesteld op 1. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als 100% van de waarden in de kolom ontbreken.

  5. Selecteer bij Opschoningsmodus een van de volgende opties voor het vervangen of verwijderen van ontbrekende waarden:

    • Aangepaste vervangingswaarde: gebruik deze optie om een tijdelijke aanduiding op te geven (zoals een 0 of N.V.) die van toepassing is op alle ontbrekende waarden. De waarde die u opgeeft als vervanging moet compatibel zijn met het gegevenstype van de kolom.

    • Vervangen door gemiddelde: berekent het kolom gemiddelde en gebruikt het gemiddelde als vervangingswaarde voor elke ontbrekende waarde in de kolom.

      Is alleen van toepassing op kolommen met het gegevenstype Geheel getal, Dubbel of Booleaanse waarde.

    • Vervangen door mediaan: berekent de mediaanwaarde van de kolom en gebruikt de mediaanwaarde als vervanging voor een ontbrekende waarde in de kolom.

      Is alleen van toepassing op kolommen met het gegevenstype Geheel getal of Dubbel.

    • Vervangen door modus: berekent de modus voor de kolom en gebruikt de modus als vervangingswaarde voor elke ontbrekende waarde in de kolom.

      Is van toepassing op kolommen met het gegevenstype Geheel getal, Dubbel, Booleaans of Categorisch.

    • Hele rij verwijderen: hiermee verwijdert u alle rijen in de gegevensset met een of meer ontbrekende waarden volledig. Dit is handig als de ontbrekende waarde kan worden beschouwd als willekeurig ontbrekend.

    • Hele kolom verwijderen: hiermee verwijdert u alle kolommen in de gegevensset met een of meer ontbrekende waarden.

  6. De optie Vervangingswaarde is beschikbaar als u de optie Aangepaste vervangingswaarde hebt geselecteerd. Typ een nieuwe waarde die moet worden gebruikt als vervangingswaarde voor alle ontbrekende waarden in de kolom.

    Houd er rekening mee dat u deze optie alleen kunt gebruiken in kolommen met het gehele getal, dubbele waarde, booleaanse waarde of tekenreeks.

  7. Indicatorkolom voor ontbrekende waarde genereren: selecteer deze optie als u wilt aangeven of de waarden in de kolom voldoen aan de criteria voor het opschonen van ontbrekende waarden. Deze optie is vooral handig wanneer u een nieuwe reinigingsbewerking instelt en er zeker van wilt zijn dat deze werkt zoals ontworpen.

  8. Verzend de pijplijn.

Resultaten

Het onderdeel retourneert twee uitvoerwaarden:

  • Opgeschoonde gegevensset: een gegevensset die bestaat uit de geselecteerde kolommen, met ontbrekende waarden die worden verwerkt zoals opgegeven, samen met een indicatorkolom, als u die optie hebt geselecteerd.

    Kolommen die niet zijn geselecteerd voor opschonen, worden ook 'doorgegeven'.

  • Opschoningstransformatie: een gegevenstransformatie die wordt gebruikt voor het opschonen, die kan worden opgeslagen in uw werkruimte en later kan worden toegepast op nieuwe gegevens.

Een opgeslagen opschoonbewerking toepassen op nieuwe gegevens

Als u het opschonen vaak moet herhalen, raden we u aan uw recept voor het opschonen van gegevens op te slaan als een transformatie, zodat u deze opnieuw kunt gebruiken met dezelfde gegevensset. Het opslaan van een opschoontransformatie is vooral handig als u gegevens met hetzelfde schema regelmatig opnieuw moet importeren en vervolgens opschonen.

  1. Voeg het onderdeel Transformatie toepassen toe aan uw pijplijn.

  2. Voeg de gegevensset toe die u wilt opschonen en verbind de gegevensset met de rechterinvoerpoort.

  3. Vouw de groep Transformaties uit in het linkerdeelvenster van de ontwerpfunctie. Zoek de opgeslagen transformatie en sleep deze naar de pijplijn.

  4. Verbind de opgeslagen transformatie met de linkerinvoerpoort van Transformatie toepassen.

    Wanneer u een opgeslagen transformatie toepast, kunt u de kolommen waarop de transformatie wordt toegepast, niet selecteren. Dat komt omdat de transformatie al is gedefinieerd en automatisch wordt toegepast op de kolommen die zijn opgegeven in de oorspronkelijke bewerking.

    Stel dat u een transformatie hebt gemaakt op een subset van numerieke kolommen. U kunt deze transformatie toepassen op een gegevensset met gemengde kolomtypen zonder dat er een fout optreedt, omdat de ontbrekende waarden alleen worden gewijzigd in de overeenkomende numerieke kolommen.

  5. Verzend de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.