Regressieonderdeel Beslissingsforest

Artikel
06/01/2023

In dit artikel wordt een onderdeel in azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een regressiemodel te maken op basis van een ensemble van beslissingsstructuren.

Nadat u het model hebt geconfigureerd, moet u het model trainen met behulp van een gelabelde gegevensset en het onderdeel Model trainen . Het getrainde model kan vervolgens worden gebruikt om voorspellingen te doen.

Uitleg

Beslissingsstructuren zijn niet-parametrische modellen die een reeks eenvoudige tests voor elk exemplaar uitvoeren, waarbij een binaire structuurgegevensstructuur wordt doorlopen totdat een bladknooppunt (beslissing) is bereikt.

Beslissingsstructuren hebben de volgende voordelen:

Ze zijn efficiënt in zowel berekeningen als geheugengebruik tijdens training en voorspelling.
Ze kunnen niet-lineaire beslissingsgrenzen vertegenwoordigen.
Ze voeren geïntegreerde functieselectie en -classificatie uit en zijn tolerant in de aanwezigheid van luidruchtige functies.

Dit regressiemodel bestaat uit een ensemble van beslissingsstructuren. Elke boom in een beslissingsforest voor regressie voert een Gaussiaanse distributie als een voorspelling uit. Er wordt een aggregatie uitgevoerd over het ensemble van bomen om een Gaussiaanse verdeling te vinden die het dichtst bij de gecombineerde verdeling ligt voor alle bomen in het model.

Zie dit artikel voor meer informatie over het theoretische kader voor dit algoritme en de implementatie ervan: Beslissingsforests: Een uniform framework voor classificatie, regressie, schatting van dichtheid, manifold learning en Semi-Supervised learning

Beslissingsforestregressiemodel configureren

Voeg het onderdeel Decision Forest Regression toe aan de pijplijn. U vindt het onderdeel in de ontwerpfunctie onder Machine Learning, Model initialiseren en Regressie.
Open de onderdeeleigenschappen en kies voor de methode Opnieuwampling de methode die wordt gebruikt om de afzonderlijke structuren te maken. U kunt kiezen uit baggeren of Repliceren.
- Bagging: Bagging wordt ook wel bootstrapaggregating genoemd. Elke boom in een regressiebeslissingsforest voert een Gaussiaanse verdeling uit door middel van voorspelling. De aggregatie is het vinden van een Gaussiaanse wiens eerste twee momenten overeenkomen met de momenten van de mix van Gaussische verdelingen die worden gegeven door het combineren van alle verdelingen die door afzonderlijke bomen worden geretourneerd.
  
  Zie de Wikipedia-vermelding voor Bootstrap-aggregatie voor meer informatie.
- Repliceren: Bij replicatie wordt elke structuur getraind op exact dezelfde invoergegevens. De bepaling van welk gesplitst predicaat wordt gebruikt voor elk boomknooppunt blijft willekeurig en de bomen zullen divers zijn.
  
  Zie Beslissingsforests voor Computer Vision en medische afbeeldingsanalyse voor meer informatie over het trainingsproces met de optie Repliceren. Criminisi en J. Shotton. Springer 2013..
Geef op hoe u het model wilt trainen door de optie Trainermodus maken in te stellen.
- Eén parameter
  
  Als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten. Mogelijk hebt u deze waarden geleerd door te experimenteren of ze als richtlijn ontvangen.
- Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en een parameter-sweep wilt uitvoeren. Selecteer een waardenbereik dat u wilt herhalen en de Hyperparameters van model afstemmen herhaalt alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten produceren.
Geef bij Aantal beslissingsstructuren het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te maken, kunt u mogelijk een betere dekking krijgen, maar de trainingstijd neemt toe.

Tip

Als u de waarde instelt op 1; Dit betekent echter dat er slechts één structuur wordt geproduceerd (de structuur met de eerste set parameters) en dat er geen verdere iteraties worden uitgevoerd.
Voor Maximale diepte van de beslissingsstructuren typt u een getal om de maximale diepte van een beslissingsstructuur te beperken. Het vergroten van de diepte van de boomstructuur kan de nauwkeurigheid verhogen, met het risico op enige overfitting en langere trainingstijd.
Bij Aantal willekeurige splitsingen per knooppunt typt u het aantal splitsingen dat moet worden gebruikt bij het bouwen van elk knooppunt van de structuur. Een splitsing betekent dat functies in elk niveau van de structuur (knooppunt) willekeurig worden verdeeld.
Geef voor Minimaal aantal steekproeven per bladknooppunt het minimale aantal gevallen aan dat nodig is om een terminalknooppunt (blad) in een structuur te maken.

Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Met de standaardwaarde 1 kan zelfs één case ervoor zorgen dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt naar 5, moeten de trainingsgegevens ten minste vijf cases bevatten die aan dezelfde voorwaarden voldoen.
Het model trainen:
- Als u de modus Trainer maken instelt op Enkele parameter, verbindt u een getagde gegevensset en het onderdeel Train Model .
- Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Hyperparameters afstemmen.
Notitie

Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met parameters gebruikt.

Als u één set parameterwaarden doorgeeft aan het onderdeel Model hyperparameters afstemmen en er een reeks instellingen voor elke parameter wordt verwacht, worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt.

Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven, gebruikt tijdens de sweep, zelfs als andere parameters in een bereik van waarden veranderen.
Verzend de pijplijn.

Resultaten

Nadat de training is voltooid:

Als u een momentopname van het getrainde model wilt opslaan, selecteert u het trainingsonderdeel en gaat u vervolgens naar het tabblad Uitvoer in het rechterdeelvenster. Klik op het pictogram Model registreren. U vindt het opgeslagen model als onderdeel in de onderdelenstructuur.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.

Regressieonderdeel Beslissingsforest

Uitleg

Beslissingsforestregressiemodel configureren

Resultaten

Volgende stappen

Aanvullende resources