Multiclass Decision Forest-komponent

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att skapa en maskininlärningsmodell baserat på beslutsskogsalgoritmen . En beslutsskog är en ensemblemodell som snabbt skapar en serie beslutsträd, samtidigt som man lär sig av taggade data.

Mer om beslutsskogar

Beslutsskogsalgoritmen är en ensembleinlärningsmetod för klassificering. Algoritmen fungerar genom att skapa flera beslutsträd och sedan rösta på den mest populära utdataklassen. Röstning är en form av sammansättning, där varje träd i en klassificeringsbeslutsskog matar ut ett icke-normaliserat frekvenshistogram med etiketter. Sammansättningsprocessen summerar dessa histogram och normaliserar resultatet för att få "sannolikheterna" för varje etikett. Träden som har högt förutsägelseförtroende har en större vikt i ensemblens slutliga beslut.

Beslutsträd är i allmänhet icke-parametriska modeller, vilket innebär att de stöder data med olika distributioner. I varje träd körs en sekvens med enkla tester för varje klass, vilket ökar nivåerna för en trädstruktur tills en lövnod (beslut) har uppnåtts.

Beslutsträd har många fördelar:

  • De kan representera icke-linjära beslutsgränser.
  • De är effektiva när det gäller beräkning och minnesanvändning under träning och förutsägelse.
  • De utför val och klassificering av integrerade funktioner.
  • De är motståndskraftiga i närvaro av brusfunktioner.

Beslutsskogsklassificeraren i Azure Machine Learning består av en ensemble av beslutsträd. I allmänhet ger ensemblemodeller bättre täckning och noggrannhet än enskilda beslutsträd. Mer information finns i Beslutsträd.

Så här konfigurerar du beslutsskog för flera grupper

  1. Lägg till komponenten Multiclass Decision Forest i pipelinen i designern. Du hittar den här komponenten under Maskininlärning, Initiera modell och Klassificering.

  2. Dubbelklicka på komponenten för att öppna fönstret Egenskaper .

  3. För Återförsäljningsmetod väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan att påse eller replikera.

    • Påse: Påse kallas även bootstrap-aggregering. I den här metoden odlas varje träd i ett nytt exempel, som skapas genom att slumpmässigt sampla den ursprungliga datauppsättningen med ersättning tills du har en datauppsättning storleken på originalet. Utdata från modellerna kombineras genom röstning, vilket är en form av aggregering. Mer information finns i Wikipedia-posten för Bootstrap-aggregering.

    • Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämning av vilket delat predikat som används för varje trädnod förblir slumpmässigt, vilket skapar olika träd.

  4. Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enskild parameter: Välj det här alternativet om du vet hur du vill konfigurera modellen och ange en uppsättning värden som argument.

    • Parameterintervall: Välj det här alternativet om du inte är säker på de bästa parametrarna och vill köra en parameterrensning. Välj ett intervall med värden att iterera över, och Tune Model Hyperparameters itererar över alla möjliga kombinationer av de inställningar som du angav för att fastställa de hyperparametrar som ger optimala resultat.

  5. Antal beslutsträd: Ange det maximala antalet beslutsträd som kan skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden kan öka.

    Om du anger värdet till 1; Det innebär dock att endast ett träd kan skapas (trädet med den ursprungliga uppsättningen parametrar) och inga ytterligare iterationer utförs.

  6. Maximalt djup för beslutsträden: Ange ett tal för att begränsa det maximala djupet för beslutsträd. Att öka trädets djup kan öka precisionen, med risk för viss överanpassning och ökad träningstid.

  7. Antal slumpmässiga delningar per nod: Ange antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktionerna i varje nivå i trädet (noden) delas slumpmässigt.

  8. Minsta antal exempel per lövnod: Ange det minsta antalet fall som krävs för att skapa en terminalnod (löv) i ett träd. Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler.

    Med standardvärdet 1 kan till exempel även ett enskilt ärende leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.

  9. Anslut en märkt datauppsättning och träna modellen:

    • Om du anger Skapa träningsläge till Enskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .

    • Om du ställer in Skapa träningslägeParameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.

    Anteckning

    Om du skickar ett parameterintervall till Träna modell används endast standardvärdet i listan med enskilda parametrar.

    Om du skickar en enda uppsättning parametervärden till komponenten Tune Model Hyperparameters ignorerar den värdena när den förväntar sig ett intervall med inställningar för varje parameter och använder standardvärdena för eleven.

    Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under svepningen, även om andra parametrar ändras över ett värdeintervall.

  10. Skicka pipelinen.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.