Regressieonderdeel beslissingsforest
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik dit onderdeel om een regressiemodel te maken op basis van een ensemble van beslissingsstructuren.
Nadat u het model hebt geconfigureerd, moet u het model trainen met behulp van een gelabelde gegevensset en het onderdeel Model trainen. Het getrainde model kan vervolgens worden gebruikt om voorspellingen te doen.
Hoe het werkt
Beslissingsstructuren zijn niet-parametrische modellen die een reeks eenvoudige tests uitvoeren voor elk exemplaar, waarbij een binaire structuur van structuurgegevens wordt doorlopen totdat een bladknooppunt (beslissing) is bereikt.
Beslissingsstructuren hebben deze voordelen:
Ze zijn efficiënt in zowel berekeningen als geheugengebruik tijdens training en voorspelling.
Ze kunnen niet-lineaire beslissingsgrenzen vertegenwoordigen.
Ze voeren geïntegreerde functieselectie en -classificatie uit en zijn tolerant in aanwezigheid van lawaaierige functies.
Dit regressiemodel bestaat uit een ensemble van beslissingsstructuren. Elke boom in een regressie beslissingsforest levert een Gaussiaanse verdeling als een voorspelling. Er wordt een aggregatie uitgevoerd over het ensemble van bomen om een Gaussiische verdeling te vinden die het dichtst bij de gecombineerde verdeling ligt voor alle bomen in het model.
Zie dit artikel voor meer informatie over het theoretische framework voor dit algoritme en de implementatie ervan: Beslissingsforests: Een geïntegreerd framework voor classificatie, regressie, schatting van dichtheid, manifold learning en semi-supervisie leren
Beslissingsforestregressiemodel configureren
Voeg het component Decision Forest Regression toe aan de pijplijn. U vindt het onderdeel in de ontwerpfunctie onder Machine Learning, Model initialiseren en Regressie.
Open de eigenschappen van het onderdeel en kies voor de resampling-methode de methode die wordt gebruikt om de afzonderlijke bomen te maken. U kunt kiezen uit Bagging of Repliceren.
Bagging: Bagging wordt ook wel bootstrapaggregating genoemd. Elke boom in een regressie beslissingsforest levert een Gaussiische verdeling op basis van voorspelling. De aggregatie is om een Gaussie te vinden waarvan de eerste twee momenten overeenkomen met de momenten van het mengsel van Gaussiische verdelingen die worden gegeven door het combineren van alle distributies die door afzonderlijke bomen worden geretourneerd.
Zie de Wikipedia-vermelding voor Bootstrap-aggregating voor meer informatie.
Repliceren: Bij replicatie wordt elke structuur getraind op exact dezelfde invoergegevens. De bepaling van welk splitsingspredicaat wordt gebruikt voor elk boomknooppunt blijft willekeurig en de bomen zullen divers zijn.
Zie Beslissingsforests voor Computer Vision- en Medische afbeeldingsanalyse voor meer informatie over het trainingsproces met de optie Repliceren. Criminisi en J. Shotton. Springer 2013..
Geef op hoe u het model wilt trainen door de optie Trainer maken in te stellen.
Eén parameter
Als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten. U hebt deze waarden mogelijk geleerd door te experimenteren of ze als richtlijn te ontvangen.
Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en u een parameter-sweep wilt uitvoeren. Selecteer een bereik met waarden om deze te herhalen en de Tune Model Hyperparameters herhalen alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten opleveren.
Voor het aantal beslissingsstructuren geeft u het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te creëren, kunt u mogelijk betere dekking krijgen, maar de trainingstijd zal toenemen.
Tip
Als u de waarde instelt op 1; Dit betekent echter dat er slechts één boom wordt geproduceerd (de structuur met de eerste set parameters) en dat er geen verdere iteraties worden uitgevoerd.
Voor maximale diepte van de beslissingsstructuren typt u een getal om de maximale diepte van een beslissingsstructuur te beperken. Het vergroten van de diepte van de boom kan de precisie verhogen, met het risico van overfitting en een verhoogde trainingstijd.
Bij het aantal willekeurige splitsingen per knooppunt typt u het aantal splitsingen dat moet worden gebruikt bij het bouwen van elk knooppunt van de structuur. Een splitsing betekent dat functies in elk niveau van de structuur (knooppunt) willekeurig worden verdeeld.
Voor minimaal aantal steekproeven per leaf-knooppunt geeft u het minimale aantal gevallen aan dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken.
Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Als u bijvoorbeeld de standaardwaarde 1 hebt, kan zelfs één geval ertoe leiden dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt tot 5, moeten de trainingsgegevens ten minste vijf gevallen bevatten die aan dezelfde voorwaarden voldoen.
Het model trainen:
Als u de modus Trainer maken instelt op Single Parameter, verbindt u een getagde gegevensset en het onderdeel Train Model.
Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Tune Model Hyperparameters.
Notitie
Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkele parameters gebruikt.
Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.
Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.
Verzend de pijplijn.
Resultaten
Nadat de training is voltooid:
- Als u een momentopname van het getrainde model wilt opslaan, selecteert u het trainingsonderdeel en gaat u naar het tabblad Uitvoer in het rechterdeelvenster. Klik op het pictogram Model registreren. U vindt het opgeslagen model als onderdeel in de onderdeelstructuur.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.