Regressie snelle forestkwantiel

In dit artikel wordt een module in Azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een snel regressiemodel voor forestkwantiel in een pijplijn te maken. Snelle kwantielregressie van forests is handig als u meer wilt weten over de verdeling van de voorspelde waarde in plaats van één gemiddelde voorspellingswaarde te krijgen. Deze methode heeft veel toepassingen, waaronder:

  • Prijzen voorspellen

  • Prestaties van leerlingen/studenten schatten of groeigrafieken toepassen om onderliggende ontwikkeling te beoordelen

  • Voorspellende relaties ontdekken in gevallen waarin er slechts een zwakke relatie tussen variabelen is

Dit regressie-algoritme is een leermethode onder supervisie. Dit betekent dat er een gelabelde gegevensset is vereist die een labelkolom bevat. Omdat het een regressie-algoritme is, moet de labelkolom alleen numerieke waarden bevatten.

Meer informatie over kwantielregressie

Er zijn veel verschillende soorten regressie. Simpel gezegd, regressie betekent dat een model wordt aangepast aan een doel dat wordt uitgedrukt als een numerieke vector. Statistici ontwikkelen echter steeds geavanceerdere methoden voor regressie.

De eenvoudigste definitie van kwantiel is een waarde waarmee een set gegevens wordt verdeeld in groepen met gelijke grootte. De kwantielwaarden markeren dus de grenzen tussen groepen. Statistisch gezien zijn kwantielen waarden die met regelmatige intervallen van de inverse van de cumulatieve verdelingsfunctie (CDF) van een willekeurige variabele worden genomen.

Terwijl lineaire regressiemodellen proberen de waarde van een numerieke variabele te voorspellen met behulp van één schatting, het gemiddelde, moet u soms het bereik of de volledige verdeling van de doelvariabele voorspellen. Hiervoor zijn technieken zoals Bayesiaanse regressie en kwantielregressie ontwikkeld.

Kwantielregressie helpt u de verdeling van de voorspelde waarde te begrijpen. Op structuur gebaseerde kwantielregressiemodellen, zoals de modellen die in dit onderdeel worden gebruikt, hebben het extra voordeel dat ze kunnen worden gebruikt om niet-parametrische distributies te voorspellen.

Fast Forest Quantile Regression configureren

  1. Voeg het onderdeel Fast Forest Quantile Regression toe aan uw pijplijn in de ontwerpfunctie. U vindt dit onderdeel onder Machine Learning-algoritmen in de categorie Regressie .

  2. Geef in het rechterdeelvenster van het onderdeel Fast Forest Quantile Regression op hoe u het model wilt trainen door de optie Trainermodus maken in te stellen.

    • Eén parameter: als u weet hoe u het model wilt configureren, geeft u een specifieke set waarden op als argumenten. Wanneer u het model traint, gebruikt u Train Model.

    • Parameterbereik: Als u niet zeker bent van de beste parameters, voert u een parameter opruimen met behulp van het onderdeel Tune Model Hyperparameters . De trainer doorloopt meerdere waarden die u opgeeft om de optimale configuratie te vinden.

  3. Aantal bomen, typ het maximum aantal bomen dat in het ensemble kan worden gemaakt. Als u meer bomen maakt, leidt dit over het algemeen tot een grotere nauwkeurigheid, maar ten koste van langere trainingstijd.

  4. Aantal bladeren, typ het maximum aantal bladeren of terminalknooppunten dat in elke boomstructuur kan worden gemaakt.

  5. Minimaal aantal trainingsexemplaren dat nodig is om een blad te vormen, geeft u het minimale aantal voorbeelden op dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken.

    Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Als u bijvoorbeeld de standaardwaarde 1 hebt, kan zelfs één geval ertoe leiden dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt tot 5, moeten de trainingsgegevens ten minste vijf gevallen bevatten die aan dezelfde voorwaarden voldoen.

  6. Bagging-breuk, geef een getal op tussen 0 en 1 dat het deel van de monsters vertegenwoordigt dat moet worden gebruikt bij het bouwen van elke groep kwantielen. Steekproeven worden willekeurig gekozen, met vervanging.

  7. Deel splitsen, typ een getal tussen 0 en 1 dat de fractie van de functies vertegenwoordigt die moeten worden gebruikt in elke splitsing van de structuur. De gebruikte functies worden altijd willekeurig gekozen.

  8. Kwantielen die moeten worden geschat, typ een door puntkomma's gescheiden lijst met de kwantielen waarvoor u het model voorspellingen wilt trainen en maken.

    Als u bijvoorbeeld een model wilt bouwen dat schattingen maakt voor kwartielen, typt 0.25; 0.5; 0.75u .

  9. Typ desgewenst een waarde voor random number seed om de generator voor willekeurige getallen te seeden die door het model wordt gebruikt. De standaardwaarde is 0, wat betekent dat er een willekeurig zaad wordt gekozen.

    U moet een waarde opgeven als u resultaten wilt reproduceren voor opeenvolgende uitvoeringen op dezelfde gegevens.

  10. Verbinding maken de trainingsgegevensset en het niet-getrainde model naar een van de trainingsonderdelen:

    Waarschuwing

    • Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de eerste waarde in de lijst met parameterbereiken gebruikt.

    • Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.

    • Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.

  11. Verzend de pijplijn.

Resultaten

Nadat de training is voltooid:

  • Als u een momentopname van het getrainde model wilt opslaan, selecteert u het trainingsonderdeel en schakelt u over naar het tabblad Outputs+logs in het rechterdeelvenster. Klik op het pictogram Gegevensset registreren. U vindt het opgeslagen model als onderdeel in de onderdeelstructuur.

Metrische evaluatiegegevens

U kunt het onderdeel Evaluate Model gebruiken om het getrainde model te evalueren. Voor Fast Forest Quantile Regression zijn de metrische gegevens als volgt.

  • Kwantielverlies: dit is een meting van de fout voor een specifiek kwantiel in uw model.
  • Gemiddelde kwantielverlies: dit is gewoon het gemiddelde van de waarden voor kwantielverlies in alle kwantielen die in het model worden beschouwd. Het geeft een algemene meting van hoe goed het model presteert voor alle kwantielen.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.