Regressieonderdeel voor versterkte beslissingsstructuur
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik dit onderdeel om een ensemble van regressiestructuren te maken met behulp van stimuleren. Het stimuleren betekent dat elke boom afhankelijk is van eerdere bomen. Het algoritme leert door het resteren van de bomen aan te passen die eraan voorafgingen. Het stimuleren van een beslissingsstructuur ensemble verbetert dus de nauwkeurigheid met een klein risico op minder dekking.
Dit onderdeel is gebaseerd op het LightGBM-algoritme.
Deze regressiemethode is een leermethode onder supervisie en vereist daarom een gelabelde gegevensset. De labelkolom moet numerieke waarden bevatten.
Notitie
Gebruik dit onderdeel alleen met gegevenssets die numerieke variabelen gebruiken.
Nadat u het model hebt gedefinieerd, traint u het met behulp van het trainmodel.
Meer informatie over versterkte regressiestructuren
Het stimuleren is een van de klassieke methoden voor het maken van ensemblemodellen, samen met bagging, willekeurige forests, enzovoort. In Azure Machine Learning maken versterkte beslissingsstructuren gebruik van een efficiënte implementatie van het MART-kleurovergangsverbeteringsalgoritmen. Gradiëntverhoging is een machine learning-techniek voor regressieproblemen. Elke regressiestructuur wordt stapsgewijs gebouwd met behulp van een vooraf gedefinieerde verliesfunctie om de fout in elke stap te meten en in de volgende stap te corrigeren. Het voorspellingsmodel is dus eigenlijk een ensemble van zwakkere voorspellingsmodellen.
Bij regressieproblemen bouwt het stimuleren van een reeks bomen op een stapsgewijze manier en selecteert vervolgens de optimale boom met behulp van een willekeurige differentiabele verliesfunctie.
Zie de volgende artikelen voor meer informatie:
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
Dit Wikipedia-artikel over gradiëntverhoging biedt wat achtergrond op versterkte bomen.
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft Research: Van RankNet naar LambdaRank naar LambdaMART: Een overzicht. Door J.C. Burges.
De methode voor het verhogen van kleurovergangen kan ook worden gebruikt voor classificatieproblemen door ze te verminderen tot regressie met een geschikte verliesfunctie. Zie Beslissingsstructuur met twee klassen voor meer informatie over de versterkte implementatie van bomen voor classificatietaken.
Boosted Decision Tree Regression configureren
Voeg het onderdeel Boosted Decision Tree toe aan uw pijplijn. U vindt dit onderdeel onder Machine Learning, Initialiseren, onder de categorie Regressie .
Geef op hoe u het model wilt trainen door de optie Trainer maken in te stellen.
Eén parameter: selecteer deze optie als u weet hoe u het model wilt configureren en een specifieke set waarden als argumenten wilt opgeven.
Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en u een parameter-sweep wilt uitvoeren. Selecteer een bereik met waarden om deze te herhalen en de Tune Model Hyperparameters herhalen alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten opleveren.
Maximum aantal bladeren per boom: geef het maximum aantal terminalknooppunten (bladeren) aan dat in elke boom kan worden gemaakt.
Door deze waarde te verhogen, vergroot u mogelijk de grootte van de boom en krijgt u een betere precisie, met het risico op overfitting en langere trainingstijd.
Minimum aantal steekproeven per leaf-knooppunt: geef het minimum aantal gevallen aan dat is vereist voor het maken van een terminalknooppunt (leaf) in een boomstructuur.
Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Als u bijvoorbeeld de standaardwaarde 1 hebt, kan zelfs één geval ertoe leiden dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt tot 5, moeten de trainingsgegevens ten minste vijf gevallen bevatten die aan dezelfde voorwaarden voldoen.
Leersnelheid: Typ een getal tussen 0 en 1 dat de stapgrootte definieert tijdens het leren. De leersnelheid bepaalt hoe snel of traag de cursist convergeert op de optimale oplossing. Als de stapgrootte te groot is, kunt u de optimale oplossing overslaan. Als de stap te klein is, duurt het langer om de training te convergeren op de beste oplossing.
Aantal geconstrueerde bomen: Geef het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te creëren, kunt u mogelijk betere dekking krijgen, maar de trainingstijd neemt toe.
Als u de waarde instelt op 1; er wordt echter slechts één boom geproduceerd (de structuur met de eerste set parameters) en er worden geen verdere iteraties uitgevoerd.
Willekeurig getal seed: typ een optioneel niet-negatief geheel getal dat moet worden gebruikt als de willekeurige seed-waarde. Het opgeven van een seed zorgt voor reproduceerbaarheid voor uitvoeringen met dezelfde gegevens en parameters.
Standaard is het willekeurige zaad ingesteld op 0, wat betekent dat de initiële seed-waarde wordt verkregen van de systeemklok.
Het model trainen:
Als u de modus Trainer maken instelt op Single Parameter, verbindt u een getagde gegevensset en het onderdeel Train Model.
Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Tune Model Hyperparameters.
Notitie
Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkele parameters gebruikt.
Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.
Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.
Verzend de pijplijn.
Resultaten
Nadat de training is voltooid:
Als u het model wilt gebruiken voor scoren, verbindt u Train Model to Score Model om waarden voor nieuwe invoervoorbeelden te voorspellen.
Als u een momentopname van het getrainde model wilt opslaan, selecteert u het tabblad Uitvoer in het rechterdeelvenster van het getrainde model en klikt u op het pictogram Gegevensset registreren . De kopie van het getrainde model wordt opgeslagen als onderdeel in de onderdeelstructuur en wordt niet bijgewerkt bij opeenvolgende uitvoeringen van de pijplijn.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.