Beslissingsforestonderdeel met meerdere klassen

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik dit onderdeel om een machine learning-model te maken op basis van het beslissingsforest-algoritme . Een beslissingsforest is een ensemblemodel waarmee snel een reeks beslissingsstructuren wordt gebouwd, terwijl u leert van getagde gegevens.

Meer informatie over beslissingsforests

Het beslissingsforest-algoritme is een ensembleleermethode voor classificatie. Het algoritme werkt door meerdere beslissingsstructuren te bouwen en vervolgens te stemmen op de populairste uitvoerklasse. Stemmen is een vorm van aggregatie, waarbij elke structuur in een classificatiebeslissingsforest een niet-genormaliseerd frequentie histogram van labels uitvoert. Het aggregatieproces telt deze histogrammen op en normaliseert het resultaat om de 'waarschijnlijkheden' voor elk label op te halen. De bomen met een hoog voorspellingsvertrouwen hebben een groter gewicht in de uiteindelijke beslissing van het ensemble.

Beslissingsstructuren zijn over het algemeen niet-parametrische modellen, wat betekent dat ze gegevens met verschillende distributies ondersteunen. In elke boomstructuur wordt een reeks eenvoudige tests uitgevoerd voor elke klasse, waardoor de niveaus van een structuurstructuur worden verhoogd totdat een bladknooppunt (beslissing) is bereikt.

Beslissingsstructuren hebben veel voordelen:

  • Ze kunnen niet-lineaire beslissingsgrenzen vertegenwoordigen.
  • Ze zijn efficiënt in berekeningen en geheugengebruik tijdens training en voorspelling.
  • Ze voeren geïntegreerde functieselectie en -classificatie uit.
  • Ze zijn tolerant in aanwezigheid van luidruchtige functies.

De beslissingsforestclassificatie in Azure Machine Learning bestaat uit een geheel van beslissingsstructuren. Over het algemeen bieden ensemblemodellen een betere dekking en nauwkeurigheid dan enkele beslissingsstructuren. Zie Beslissingsstructuren voor meer informatie.

Beslissingsforest met meerdere klassen configureren

  1. Voeg het onderdeel Beslissingsforest met meerdere klassen toe aan uw pijplijn in de ontwerpfunctie. U vindt dit onderdeel onder Machine Learning, Model initialiseren en Classificatie.

  2. Dubbelklik op het onderdeel om het deelvenster Eigenschappen te openen.

  3. Kies voor resampling-methode de methode die wordt gebruikt om de afzonderlijke structuren te maken. U kunt kiezen uit bagging of replicatie.

    • Bagging: Bagging wordt ook wel bootstrapaggregating genoemd. In deze methode wordt elke boomstructuur uitgebreid op een nieuw voorbeeld, dat wordt gemaakt door willekeurig steekproeven uit te voeren op de oorspronkelijke gegevensset met vervanging totdat u een gegevensset hebt die de grootte van de oorspronkelijke gegevensset heeft. De uitvoer van de modellen wordt gecombineerd door te stemmen. Dit is een vorm van aggregatie. Zie de Wikipedia-vermelding voor Bootstrap-aggregatie voor meer informatie.

    • Repliceren: Bij replicatie wordt elke structuur getraind op exact dezelfde invoergegevens. De bepaling van welk gesplitst predicaat voor elk boomknooppunt wordt gebruikt, blijft willekeurig, waardoor diverse bomen ontstaan.

  4. Geef op hoe u het model wilt trainen door de optie Trainermodus maken in te stellen.

    • Enkele parameter: selecteer deze optie als u weet hoe u het model wilt configureren en een set waarden als argumenten wilt opgeven.

    • Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en een parameter-sweep wilt uitvoeren. Selecteer een waardenbereik dat u wilt herhalen. De hyperparameters van het model afstemmen worden herhaald met alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten opleveren.

  5. Aantal beslissingsstructuren: typ het maximum aantal beslissingsstructuren dat in het ensemble kan worden gemaakt. Door meer beslissingsstructuren te maken, kunt u mogelijk een betere dekking krijgen, maar de trainingstijd kan toenemen.

    Als u de waarde instelt op 1; Dit betekent echter dat er slechts één boomstructuur kan worden geproduceerd (de structuur met de eerste set parameters) en dat er geen verdere iteraties worden uitgevoerd.

  6. Maximale diepte van de beslissingsstructuren: typ een getal om de maximale diepte van een beslissingsstructuur te beperken. Het vergroten van de diepte van de boom kan de precisie verhogen, met het risico van enige overfitting en langere trainingstijd.

  7. Aantal willekeurige splitsingen per knooppunt: typ het aantal splitsingen dat moet worden gebruikt bij het bouwen van elk knooppunt van de structuur. Een splitsing betekent dat functies in elk niveau van de structuur (knooppunt) willekeurig worden verdeeld.

  8. Minimaal aantal steekproeven per leaf-knooppunt: geef het minimale aantal gevallen aan dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken. Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels.

    Met de standaardwaarde 1 kan zelfs één hoofdlettergebruik ervoor zorgen dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt naar 5, moeten de trainingsgegevens ten minste vijf cases bevatten die aan dezelfde voorwaarden voldoen.

  9. Verbind een gelabelde gegevensset en train het model:

    • Als u de modus Trainer maken instelt op Enkele parameter, verbindt u een getagde gegevensset en het onderdeel Train Model .

    • Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met hyperparameters afstemmen.

    Notitie

    Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkelvoudige parameters gebruikt.

    Als u één set parameterwaarden doorgeeft aan het onderdeel Model hyperparameters afstemmen en er een bereik van instellingen voor elke parameter wordt verwacht, worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt.

    Als u de optie Parameterbereik selecteert en één waarde voor een parameter invoert, wordt die ene waarde die u hebt opgegeven, gebruikt tijdens de sweep, zelfs als andere parameters in een bereik van waarden veranderen.

  10. Verzend de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.