Dela via


Komponent för beslutsskog för flera grupper

I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.

Använd den här komponenten för att skapa en maskininlärningsmodell baserat på beslutsskogsalgoritmen. En beslutsskog är en ensemblemodell som snabbt skapar en serie beslutsträd, samtidigt som man lär sig av taggade data.

Mer om beslutsskogar

Beslutsskogsalgoritmen är en ensembleinlärningsmetod för klassificering. Algoritmen fungerar genom att skapa flera beslutsträd och sedan rösta på den mest populära utdataklassen. Röstning är en form av sammansättning där varje träd i en klassificeringsbeslutsskog matar ut ett icke-normaliserat frekvenshistogram med etiketter. Aggregeringsprocessen summerar dessa histogram och normaliserar resultatet för att få "sannolikheterna" för varje etikett. De träd som har högt förutsägelseförtroende har större vikt i ensemblens slutliga beslut.

Beslutsträd i allmänhet är icke-parametriska modeller, vilket innebär att de stöder data med olika distributioner. I varje träd körs en sekvens med enkla tester för varje klass, vilket ökar nivåerna för en trädstruktur tills en lövnod (beslut) har nåtts.

Beslutsträd har många fördelar:

  • De kan representera icke-linjära beslutsgränser.
  • De är effektiva vid beräkning och minnesanvändning under träning och förutsägelse.
  • De utför val och klassificering av integrerade funktioner.
  • De är motståndskraftiga i närvaro av bullriga funktioner.

Beslutsskogsklassificeraren i Azure Mašinsko učenje består av en ensemble av beslutsträd. I allmänhet ger ensemblemodeller bättre täckning och noggrannhet än enskilda beslutsträd. Mer information finns i Beslutsträd.

Så här konfigurerar du beslutsskog för flera grupper

  1. Lägg till komponenten Beslutsskog för flera grupper i pipelinen i designern. Du hittar den här komponenten under Mašinsko učenje, Initiera modell och klassificering.

  2. Dubbelklicka på komponenten för att öppna fönstret Egenskaper .

  3. För Omsamplingsmetod väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan att packa eller replikera.

    • Påse: Påse kallas även bootstrap-aggregering. I den här metoden odlas varje träd i ett nytt exempel, som skapas genom slumpmässig sampling av den ursprungliga datamängden med ersättning tills du har en datauppsättning storleken på originalet. Modellernas utdata kombineras genom röstning, vilket är en form av sammansättning. Mer information finns i Wikipedia-posten för Bootstrap-aggregering.

    • Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilken delad predikat som används för varje trädnod förblir slumpmässig, vilket skapar olika träd.

  4. Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enskild parameter: Välj det här alternativet om du vet hur du vill konfigurera modellen och ange en uppsättning värden som argument.

    • Parameterintervall: Välj det här alternativet om du inte är säker på de bästa parametrarna och vill köra en parametersvepning. Välj ett intervall med värden att iterera över, och Tune Model Hyperparameters itererar över alla möjliga kombinationer av de inställningar som du angav för att fastställa de hyperparametrar som ger optimala resultat.

  5. Antal beslutsträd: Ange det maximala antalet beslutsträd som kan skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden kan öka.

    Om du anger värdet till 1; Det innebär dock att endast ett träd kan skapas (trädet med den första uppsättningen parametrar) och inga ytterligare iterationer utförs.

  6. Maximalt djup för beslutsträden: Ange ett tal för att begränsa det maximala djupet för beslutsträd. Att öka trädets djup kan öka precisionen, med risk för viss överanpassning och ökad träningstid.

  7. Antal slumpmässiga delningar per nod: Ange antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner i varje nivå i trädet (noden) delas slumpmässigt.

  8. Minsta antal exempel per lövnod: Ange det minsta antal fall som krävs för att skapa en terminalnod (löv) i ett träd. Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler.

    Med standardvärdet 1 kan till exempel även ett enskilt fall leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.

  9. Anslut en märkt datauppsättning och träna modellen:

    • Om du ställer in Läget Skapa tränareEnskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .

    • Om du anger Skapa träningsläge till Parameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.

    Kommentar

    Om du skickar ett parameterintervall till Train Model används endast standardvärdet i listan med enskilda parametrar.

    Om du skickar en enskild uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena när det förväntar sig ett intervall med inställningar för varje parameter och använder standardvärdena för eleven.

    Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under hela svepet, även om andra parametrar ändras över ett värdeintervall.

  10. Skicka pipelinen.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.