Beslissingsstructuuronderdeel met twee klassen verhoogd
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik dit onderdeel om een machine learning-model te maken dat is gebaseerd op het boosted decision trees-algoritme.
Een versterkte beslissingsstructuur is een ensembleleermethode waarin de tweede boom de fouten van de eerste boom corrigeert, de derde boom corrigeert voor de fouten van de eerste en tweede bomen, enzovoort. Voorspellingen zijn gebaseerd op het hele ensemble van bomen samen die de voorspelling maakt.
Over het algemeen zijn, wanneer deze goed zijn geconfigureerd, versterkte beslissingsstructuren de eenvoudigste methoden waarmee u de beste prestaties kunt krijgen voor een groot aantal machine learning-taken. Ze zijn echter ook een van de meer geheugenintensieve cursisten en de huidige implementatie bevat alles in het geheugen. Daarom kan een boosted beslissingsstructuurmodel de grote gegevenssets die sommige lineaire cursisten kunnen verwerken, mogelijk niet verwerken.
Dit onderdeel is gebaseerd op het LightGBM-algoritme.
Configureren
Met dit onderdeel maakt u een niet-getraind classificatiemodel. Omdat classificatie een leermethode onder supervisie is om het model te trainen, hebt u een gelabelde gegevensset nodig die een labelkolom bevat met een waarde voor alle rijen.
U kunt dit type model trainen met train model.
Voeg in Azure Machine Learning het onderdeel Boosted Decision Tree toe aan uw pijplijn.
Geef op hoe u het model wilt trainen door de optie Trainer maken in te stellen.
Eén parameter: als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten.
Parameterbereik: Als u niet zeker bent van de beste parameters, kunt u de optimale parameters vinden met behulp van het onderdeel Tune Model Hyperparameters . U geeft een bepaald bereik van waarden op en de trainer doorloopt meerdere combinaties van de instellingen om de combinatie van waarden te bepalen die het beste resultaat opleveren.
Geef voor Maximum aantal bladeren per boom het maximum aantal terminalknooppunten (bladeren) aan dat in elke boom kan worden gemaakt.
Door deze waarde te verhogen, vergroot u mogelijk de grootte van de boom en krijgt u een betere precisie, met het risico op overfitting en langere trainingstijd.
Geef voor minimaal aantal steekproeven per leaf-knooppunt het aantal gevallen aan dat is vereist voor het maken van een terminalknooppunt (leaf) in een boomstructuur.
Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Als u bijvoorbeeld de standaardwaarde 1 hebt, kan zelfs één geval ertoe leiden dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt tot 5, moeten de trainingsgegevens ten minste vijf gevallen bevatten die aan dezelfde voorwaarden voldoen.
Voor leersnelheid typt u een getal tussen 0 en 1 dat de stapgrootte definieert tijdens het leren.
De leersnelheid bepaalt hoe snel of traag de cursist convergeert op de optimale oplossing. Als de stap te groot is, kunt u de optimale oplossing overslaan. Als de stap te klein is, duurt het langer om de training te convergeren op de beste oplossing.
Voor het aantal bomen dat is gebouwd, geeft u het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te creëren, kunt u mogelijk betere dekking krijgen, maar de trainingstijd zal toenemen.
Als u de waarde instelt op 1, wordt er slechts één boomstructuur geproduceerd (de structuur met de eerste set parameters) en worden er geen verdere iteraties uitgevoerd.
Voor willekeurig getal seed typt u desgewenst een niet-negatief geheel getal dat moet worden gebruikt als de willekeurige seed-waarde. Het opgeven van een seed zorgt voor reproduceerbaarheid voor uitvoeringen met dezelfde gegevens en parameters.
Het willekeurige zaad wordt standaard ingesteld op 0, wat betekent dat de initiële seed-waarde wordt verkregen van de systeemklok. Opeenvolgende uitvoeringen met behulp van een willekeurige seed kunnen verschillende resultaten hebben.
Het model trainen:
Als u de modus Trainer maken instelt op Single Parameter, verbindt u een getagde gegevensset en het onderdeel Train Model.
Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Tune Model Hyperparameters.
Notitie
Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkele parameters gebruikt.
Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.
Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.
Resultaten
Nadat de training is voltooid:
Als u een momentopname van het getrainde model wilt opslaan, selecteert u het tabblad Uitvoer in het rechterdeelvenster van het onderdeel Model trainen. Selecteer het pictogram Gegevensset registreren om het model op te slaan als een herbruikbaar onderdeel.
Als u het model wilt gebruiken voor scoren, voegt u het onderdeel Score Model toe aan een pijplijn.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.