Delen via


Component Beslissingsforest met meerdere klassen

In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een machine learning-model te maken op basis van het beslissingsforest-algoritme . Een beslissingsforest is een ensemblemodel dat snel een reeks beslissingsstructuren bouwt, terwijl u leert van getagde gegevens.

Meer informatie over beslissingsforests

Het algoritme van het beslissingsforest is een ensemble learning-methode voor classificatie. Het algoritme werkt door meerdere beslissingsstructuren te bouwen en vervolgens te stemmen op de populairste uitvoerklasse. Stemmen is een vorm van aggregatie, waarin elke structuur in een classificatiebeslissingsforest een niet-genormaliseerd frequentie-histogram van labels uitvoert. Het aggregatieproces telt deze histogrammen op en normaliseert het resultaat om de 'waarschijnlijkheden' voor elk label op te halen. De bomen met een hoge voorspellingsvertrouwen hebben een groter gewicht in de uiteindelijke beslissing van het ensemble.

Beslissingsstructuren in het algemeen zijn niet-parametrische modellen, wat betekent dat ze gegevens met verschillende distributies ondersteunen. In elke structuur wordt een reeks eenvoudige tests uitgevoerd voor elke klasse, waardoor de niveaus van een structuur worden verhoogd totdat een bladknooppunt (beslissing) is bereikt.

Beslissingsstructuren hebben veel voordelen:

  • Ze kunnen niet-lineaire beslissingsgrenzen vertegenwoordigen.
  • Ze zijn efficiënt in berekeningen en geheugengebruik tijdens training en voorspelling.
  • Ze voeren geïntegreerde functieselectie en -classificatie uit.
  • Ze zijn tolerant in aanwezigheid van lawaaierige functies.

De beslissingsforestclassificatie in Azure Machine Learning bestaat uit een ensemble van beslissingsstructuren. Over het algemeen bieden ensemblemodellen betere dekking en nauwkeurigheid dan enkele beslissingsstructuren. Zie Beslissingsstructuren voor meer informatie.

Multiclass Decision Forest configureren

  1. Voeg het component Multiclass Decision Forest toe aan uw pijplijn in de ontwerpfunctie. U vindt dit onderdeel onder Machine Learning, Model initialiseren en Classificatie.

  2. Dubbelklik op het onderdeel om het deelvenster Eigenschappen te openen.

  3. Kies voor de methode Resampling de methode die wordt gebruikt om de afzonderlijke bomen te maken. U kunt kiezen uit bagging of replicatie.

    • Bagging: Bagging wordt ook wel bootstrapaggregating genoemd. In deze methode wordt elke boomstructuur gekweekt op een nieuw voorbeeld, gemaakt door willekeurig een steekproef te nemen van de oorspronkelijke gegevensset met vervanging totdat u een gegevensset hebt die de grootte van het origineel heeft. De uitvoer van de modellen wordt gecombineerd door te stemmen. Dit is een vorm van aggregatie. Zie de Wikipedia-vermelding voor Bootstrap-aggregating voor meer informatie.

    • Repliceren: Bij replicatie wordt elke structuur getraind op exact dezelfde invoergegevens. Het bepalen van welk splitsingspredicaat wordt gebruikt voor elk boomknooppunt blijft willekeurig, waardoor diverse bomen worden gemaakt.

  4. Geef op hoe u het model wilt trainen door de optie Trainer maken in te stellen.

    • Eén parameter: selecteer deze optie als u weet hoe u het model wilt configureren en een set waarden als argumenten wilt opgeven.

    • Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en u een parameter-sweep wilt uitvoeren. Selecteer een bereik met waarden om deze te herhalen en de Tune Model Hyperparameters herhalen alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten opleveren.

  5. Aantal beslissingsstructuren: Typ het maximum aantal beslissingsstructuren dat in het ensemble kan worden gemaakt. Door meer beslissingsstructuren te creëren, kunt u mogelijk betere dekking krijgen, maar de trainingstijd kan toenemen.

    Als u de waarde instelt op 1; Dit betekent echter dat er slechts één boomstructuur kan worden geproduceerd (de structuur met de eerste set parameters) en dat er geen verdere iteraties worden uitgevoerd.

  6. Maximale diepte van de beslissingsstructuren: Typ een getal om de maximale diepte van een beslissingsstructuur te beperken. Het vergroten van de diepte van de boom kan de precisie verhogen, met het risico van overfitting en een verhoogde trainingstijd.

  7. Aantal willekeurige splitsingen per knooppunt: typ het aantal splitsingen dat moet worden gebruikt bij het bouwen van elk knooppunt van de structuur. Een splitsing betekent dat functies in elk niveau van de structuur (knooppunt) willekeurig worden verdeeld.

  8. Minimum aantal steekproeven per leaf-knooppunt: geef het minimum aantal gevallen aan dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken. Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels.

    Als u bijvoorbeeld de standaardwaarde 1 hebt, kan zelfs één geval ertoe leiden dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt tot 5, moeten de trainingsgegevens ten minste vijf gevallen bevatten die aan dezelfde voorwaarden voldoen.

  9. Verbind een gelabelde gegevensset en train het model:

    • Als u de modus Trainer maken instelt op Single Parameter, verbindt u een getagde gegevensset en het onderdeel Train Model.

    • Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Tune Model Hyperparameters.

    Notitie

    Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkele parameters gebruikt.

    Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.

    Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.

  10. Verzend de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.