Regressionskomponent för beslutsskog

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att skapa en regressionsmodell baserat på en ensemble av beslutsträd.

När du har konfigurerat modellen måste du träna modellen med hjälp av en märkt datauppsättning och komponenten Träna modell . Den tränade modellen kan sedan användas för att göra förutsägelser.

Så här fungerar det

Beslutsträd är icke-parametriska modeller som utför en sekvens med enkla tester för varje instans och passerar en binär träddatastruktur tills en lövnod (beslut) har nåtts.

Beslutsträd har följande fördelar:

  • De är effektiva vid både beräkning och minnesanvändning under träning och förutsägelse.

  • De kan representera icke-linjära beslutsgränser.

  • De utför val och klassificering av integrerade funktioner och är motståndskraftiga i närvaro av bullriga funktioner.

Den här regressionsmodellen består av en ensemble av beslutsträd. Varje träd i en regressions beslutsskog matar ut en gaussisk fördelning som en förutsägelse. En aggregering utförs över ensemblen av träd för att hitta en gaussisk fördelning närmast den kombinerade fördelningen för alla träd i modellen.

Mer information om det teoretiska ramverket för den här algoritmen och dess implementering finns i den här artikeln: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning

Så här konfigurerar du regressionsmodellen för beslutsskog

  1. Lägg till komponenten Decision Forest Regression i pipelinen. Du hittar komponenten i designern under Machine Learning, Initialize Model och Regression.

  2. Öppna komponentegenskaperna och för Omsamplingsmetod väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan att felsöka eller replikera.

    • Bagging: Bagging kallas även bootstrap-aggregering. Varje träd i en regressions beslutsskog matar ut en gaussisk fördelning som förutsägelse. Aggregeringen är att hitta en gaussisk vars första två ögonblick matchar ögonblicken i blandningen av gaussiska fördelningar som ges genom att kombinera alla fördelningar som returneras av enskilda träd.

      Mer information finns i Wikipedia-posten för Bootstrap-aggregering.

    • Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilket delat predikat som används för varje trädnod förblir slumpmässig och träden kommer att vara olika.

      Mer information om träningsprocessen med alternativet Replikera finns i Beslutsskogar för Visuellt innehåll och Medicinsk bildanalys. Criminisi och J. Shotton. Springer 2013..

  3. Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enkel parameter

      Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument. Du kanske har lärt dig dessa värden genom experimentering eller tagit emot dem som vägledning.

    • Parameterintervall: Välj det här alternativet om du inte är säker på de bästa parametrarna och vill köra en parameterrensning. Välj ett värdeintervall att iterera över, så itererar Tune Model Hyperparameters över alla möjliga kombinationer av de inställningar som du angav för att fastställa de hyperparametrar som ger optimala resultat.

  4. För Antal beslutsträd anger du det totala antalet beslutsträd som ska skapas i ensemblen. Genom att skapa fler beslutsträd kan du potentiellt få bättre täckning, men träningstiden ökar.

    Tips

    Om du anger värdet till 1; Det innebär dock att endast ett träd skapas (trädet med den inledande uppsättningen parametrar) och inga ytterligare iterationer utförs.

  5. För Maximalt djup för beslutsträden skriver du ett tal för att begränsa det maximala djupet för ett beslutsträd. Att öka trädets djup kan öka precisionen, med risk för viss överanpassning och ökad träningstid.

  6. För Antal slumpmässiga delningar per nod anger du antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner på varje nivå i trädet (noden) delas slumpmässigt.

  7. För Minsta antal exempel per lövnod anger du det minsta antalet fall som krävs för att skapa en terminalnod (lövnod) i ett träd.

    Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall orsaka att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.

  8. Träna modellen:

    • Om du anger Skapa träningsläge till Enskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .

    • Om du ställer in Skapa träningslägeParameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.

    Anteckning

    Om du skickar ett parameterintervall till Train Model används endast standardvärdet i listan med enskilda parametrar.

    Om du skickar en enda uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena när en uppsättning inställningar för varje parameter förväntas, och standardvärdena för learner används.

    Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under svepet, även om andra parametrar ändras över ett värdeintervall.

  9. Skicka pipelinen.

Resultat

När träningen är klar:

  • Om du vill spara en ögonblicksbild av den tränade modellen väljer du träningskomponenten och växlar sedan till fliken Utdata i den högra panelen. Klicka på ikonen Registrera modell. Du hittar den sparade modellen som en komponent i komponentträdet.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.