Konfigurera AutoML-träning utan kod med studiogränssnittet

I den här artikeln får du lära dig hur du konfigurerar AutoML-träningsjobb utan en enda kodrad med hjälp av automatiserad ML i Azure Machine Learning i Azure Machine Learning-studio.

Automatisk maskininlärning, AutoML, är en process där den bästa maskininlärningsalgoritmen som ska användas för dina specifika data väljs åt dig. Med den här processen kan du generera maskininlärningsmodeller snabbt. Läs mer om hur Azure Machine Learning implementerar automatiserad maskininlärning.

Ett exempel från slutpunkt till slutpunkt finns i Självstudie: AutoML – träna klassificeringsmodeller utan kod.

Konfigurera dina automatiserade maskininlärningsexperiment med Azure Machine Learning SDK för en python-kodbaserad upplevelse.

Förutsättningar

Kom igång

  1. Logga in på Azure Machine Learning-studio.

  2. Välj din prenumeration och arbetsyta.

  3. Gå till den vänstra rutan. Välj Automatiserad ML under avsnittet Författare .

Azure Machine Learning-studio navigeringsfönstret

Om det här är första gången du utför experiment visas en tom lista och länkar till dokumentationen.

Annars visas en lista över dina senaste automatiserade ML-experiment, inklusive de som skapats med SDK:t.

Skapa och köra experiment

  1. Välj + Nytt automatiserat ML-jobb och fyll i formuläret.

  2. Välj en datatillgång från lagringscontainern eller skapa en ny datatillgång. Datatillgången kan skapas från lokala filer, webb-URL:ar, datalager eller öppna Azure-datamängder. Läs mer om hur du skapar datatillgångar.

    Viktigt

    Krav på träningsdata:

    • Data måste vara i tabellformat.
    • Det värde som du vill förutsäga (målkolumnen) måste finnas i data.
    1. Om du vill skapa en ny datauppsättning från en fil på den lokala datorn väljer du +Skapa datauppsättning och sedan Från lokal fil.

    2. I formuläret Grundläggande information ger du datauppsättningen ett unikt namn och anger en valfri beskrivning.

    3. Välj Nästa för att öppna formuläret För datalager och filval. I det här formuläret väljer du var datauppsättningen ska laddas upp. standardlagringscontainern som skapas automatiskt med din arbetsyta eller väljer en lagringscontainer som du vill använda för experimentet.

      1. Om dina data finns bakom ett virtuellt nätverk måste du aktivera funktionen Hoppa över verifieringen för att säkerställa att arbetsytan kan komma åt dina data. Mer information finns i Använda Azure Machine Learning-studio i ett virtuellt Azure-nätverk.
    4. Välj Bläddra för att ladda upp datafilen för datauppsättningen.

    5. Granska formuläret Inställningar och förhandsgranskning för att se om det är korrekt. Formuläret fylls i intelligent baserat på filtypen.

      Fält Beskrivning
      Filformat Definierar layouten och typen av data som lagras i en fil.
      Avgränsare Ett eller flera tecken för att ange gränsen mellan separata, oberoende regioner i oformaterad text eller andra dataströmmar.
      Kodning Identifierar vilken bit till teckenschematabell som ska användas för att läsa datauppsättningen.
      Kolumnrubriker Anger hur eventuella sidhuvuden i datauppsättningen kommer att behandlas.
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen.

      Välj Nästa.

    6. Schemaformuläret fylls i intelligent baserat på valen i formuläret Inställningar och förhandsgranskning. Här konfigurerar du datatypen för varje kolumn, granskar kolumnnamnen och väljer vilka kolumner som ska Inkluderas inte för experimentet.

      Välj Nästa.

    7. Formuläret Bekräfta information är en sammanfattning av den information som tidigare fyllts i i formulären Grundläggande informationoch Inställningar och förhandsgranskning . Du kan också välja att skapa en dataprofil för din datauppsättning med hjälp av en profileringsaktiverad beräkning. Läs mer om dataprofilering.

      Välj Nästa.

  3. Välj den nya datauppsättningen när den visas. Du kan också visa en förhandsgranskning av datauppsättningen och exempelstatistiken.

  4. I formuläret Konfigurera jobb väljer du Skapa ny och anger Tutorial-automl-deploy som experimentnamn.

  5. Välj en målkolumn. Det här är den kolumn som du vill göra förutsägelser om.

  6. Välj en beräkningstyp för dataprofilerings- och träningsjobbet. Du kan välja ett beräkningskluster eller en beräkningsinstans.

  7. Välj en beräkning i listrutan för dina befintliga beräkningar. Om du vill skapa en ny beräkning följer du anvisningarna i steg 8.

  8. Välj Skapa en ny beräkning för att konfigurera beräkningskontexten för det här experimentet.

    Fält Beskrivning
    Namn på beräkning Ange ett unikt namn som identifierar beräkningskontexten.
    Prioritet för virtuell dator Virtuella datorer med låg prioritet är billigare men garanterar inte beräkningsnoderna.
    Typ av virtuell dator Välj CPU eller GPU som typ av virtuell dator.
    Storlek för virtuell dator Välj storleken på den virtuella datorn för beräkningen.
    Min/Max-noder Om du vill profilera data måste du ange 1 eller flera noder. Ange det maximala antalet noder för beräkningen. Standardvärdet är 6 noder för en AzureML Compute.
    Avancerade inställningar Med de här inställningarna kan du konfigurera ett användarkonto och ett befintligt virtuellt nätverk för experimentet.

    Välj Skapa. Det kan ta några minuter att skapa en ny beräkning.

    Anteckning

    Ditt beräkningsnamn anger om den beräkning som du väljer/skapar är profileringen aktiverad. (Mer information finns i avsnittet dataprofilering ).

    Välj Nästa.

  9. I formuläret Aktivitetstyp och inställningar väljer du aktivitetstypen: klassificering, regression eller prognostisering. Mer information finns i Aktivitetstyper som stöds .

    1. För klassificering kan du också aktivera djupinlärning.

      Om djupinlärning är aktiverat är valideringen begränsad till train_validation delning. Läs mer om valideringsalternativ.

    2. För prognostisering kan du

      1. Aktivera djupinlärning.

      2. Välj tidskolumn: Den här kolumnen innehåller tidsdata som ska användas.

      3. Välj prognoshorisont: Ange hur många tidsenheter (minuter/timmar/dagar/veckor/månader/år) som modellen kommer att kunna förutsäga för framtiden. Ju längre modellen krävs för att förutsäga i framtiden, desto mindre exakt blir den. Läs mer om prognostisering och prognoshorisont.

  10. (Valfritt) Visa inställningar för tilläggskonfiguration: ytterligare inställningar som du kan använda för att bättre kontrollera träningsjobbet. Annars tillämpas standardvärden baserat på val av experiment och data.

    Ytterligare konfigurationer Description
    Primärt mått Huvudmått som används för att bedöma din modell. Läs mer om modellmått.
    Förklara den bästa modellen Välj om du vill aktivera eller inaktivera för att visa förklaringar till den rekommenderade bästa modellen.
    Den här funktionen är för närvarande inte tillgänglig för vissa prognosalgoritmer.
    Blockerad algoritm Välj algoritmer som du vill undanta från träningsjobbet.

    Det går bara att tillåta algoritmer för SDK-experiment.
    Se de algoritmer som stöds för varje aktivitetstyp.
    Avslutningsvillkor När något av dessa villkor uppfylls stoppas träningsjobbet.
    Tid för träningsjobb (timmar): Hur länge träningsjobbet ska köras.
    Tröskelvärde för måttpoäng: Minsta måttpoäng för alla pipelines. Detta säkerställer att du inte lägger mer tid på träningsjobbet än nödvändigt om du har ett definierat målmått som du vill nå.
    Samtidighet Maximalt antal samtidiga iterationer: Maximalt antal pipelines (iterationer) som ska testas i träningsjobbet. Jobbet körs inte mer än det angivna antalet iterationer. Läs mer om hur automatiserad ML utför flera underordnade jobb i kluster.
  11. (Valfritt) Visa funktionaliseringsinställningar: Om du väljer att aktivera automatisk funktionalisering i formuläret Ytterligare konfigurationsinställningar tillämpas standardtekniker för funktionalisering. I Visa funktionaliseringsinställningar kan du ändra dessa standardvärden och anpassa dem därefter. Lär dig hur du anpassar funktionaliseringar.

    Skärmbild som visar dialogrutan Välj aktivitetstyp med Visa funktionaliseringsinställningar framhävt.

  12. Med [Valfritt] Verifierings- och testformulär kan du göra följande.

    1. Ange vilken typ av validering som ska användas för ditt träningsjobb. Läs mer om korsvalidering.

      1. Prognostiseringsuppgifter stöder endast k-fold korsvalidering.
    2. Ange en testdatamängd (förhandsversion) för att utvärdera den rekommenderade modellen som automatiserad ML genererar åt dig i slutet av experimentet. När du anger testdata utlöses ett testjobb automatiskt i slutet av experimentet. Det här testjobbet är bara jobb på den bästa modellen som rekommenderades av automatiserad ML. Lär dig hur du hämtar resultatet av fjärrtestjobbet.

      Viktigt

      Att tillhandahålla en testdatauppsättning för att utvärdera genererade modeller är en förhandsgranskningsfunktion. Den här funktionen är en experimentell förhandsgranskningsfunktion och kan ändras när som helst.

      • Testdata anses vara separata från träning och validering, för att inte påverka resultatet av testjobbet för den rekommenderade modellen. Läs mer om bias under modellvalidering.
      • Du kan antingen ange en egen testdatauppsättning eller välja att använda en procentandel av din träningsdatauppsättning. Testdata måste vara i form av en Azure Machine Learning TabularDataset.
      • Schemat för testdatauppsättningen ska matcha träningsdatauppsättningen. Målkolumnen är valfri, men om ingen målkolumn anges beräknas inga testmått.
      • Testdatamängden bör inte vara samma som träningsdatauppsättningen eller valideringsdatauppsättningen.
      • Prognostiseringsjobb har inte stöd för tränings-/testdelning.

      Skärmbild som visar formuläret där du väljer valideringsdata och testdata

Anpassa funktionalisering

I formuläret Funktionalisering kan du aktivera/inaktivera automatisk funktionalisering och anpassa inställningarna för automatisk funktionalisering för experimentet. Information om hur du öppnar formuläret finns i steg 10 i avsnittet Skapa och köra experiment .

I följande tabell sammanfattas de anpassningar som för närvarande är tillgängliga via studio.

Kolumn Anpassning
Ingår Anger vilka kolumner som ska inkluderas för träning.
Funktionstyp Ändra värdetyp för den valda kolumnen.
Imputera med Välj vilket värde du vill imputera saknade värden med i dina data.

Azure Machine Learning-studio anpassad funktionalisering

Köra experiment och visa resultat

Välj Slutför för att köra experimentet. Experimentförberedelserna kan ta upp till 10 minuter. För träningsjobb kan det ta ytterligare 2–3 minuter för varje pipeline att slutföra körningen.

Anteckning

De algoritmer som automatiserad ML använder har inbyggd slumpmässighet som kan orsaka liten variation i en rekommenderad modells slutliga måttpoäng, till exempel noggrannhet. Automatiserad ML utför även åtgärder på data, till exempel delning av träningstest, delning av träningsvalidering eller korsvalidering vid behov. Så om du kör ett experiment med samma konfigurationsinställningar och primärmått flera gånger ser du förmodligen variationer i varje experiments slutliga måttpoäng på grund av dessa faktorer.

Visa experimentinformation

Skärmen Jobbinformation öppnas på fliken Information . På den här skärmen visas en sammanfattning av experimentjobbet, inklusive ett statusfält längst upp bredvid jobbnumret.

Fliken Modeller innehåller en lista över de modeller som skapats ordnade efter måttpoängen. Som standard visas modellen med högst poäng utifrån det valda måttet överst i listan. När träningsjobbet testar fler modeller läggs de till i listan. Använd det här för att få en snabb jämförelse av måtten för de modeller som har producerats hittills.

Jobbinformation

Visa information om träningsjobb

Öka detaljnivån för någon av de slutförda modellerna för att se information om träningsjobb. På fliken Modell visas information som en modellsammanfattning och de hyperparametrar som används för den valda modellen.

Information om Hyperparameter

Du kan också se modellspecifika prestandamåttdiagram på fliken Mått . Läs mer om diagram.

Iterationsinformation

På fliken Datatransformering kan du se ett diagram över vilka dataförbearbetning, funktionsframställning, skalningstekniker och maskininlärningsalgoritmen som användes för att generera den här modellen.

Viktigt

Fliken Datatransformering är i förhandsversion. Den här funktionen bör betraktas som experimentell och kan ändras när som helst.

Datatransformering

Visa resultat från fjärrtestjobb (förhandsversion)

Om du har angett en testdatauppsättning eller valt en tränings-/testdelning under experimentkonfigurationen– i formuläret Verifiera och testa testar automatiserad ML automatiskt den rekommenderade modellen som standard. Därför beräknar automatiserad ML testmått för att fastställa kvaliteten på den rekommenderade modellen och dess förutsägelser.

Viktigt

Att testa dina modeller med en testdatauppsättning för att utvärdera genererade modeller är en förhandsgranskningsfunktion. Den här funktionen är en experimentell förhandsgranskningsfunktion och kan ändras när som helst.

Om du vill visa testjobbmåtten för den rekommenderade modellen,

  1. Gå till sidan Modeller och välj den bästa modellen.
  2. Välj fliken Testresultat (förhandsversion).
  3. Välj önskat jobb och visa fliken Mått . Fliken Testresultat för automatiskt testad, rekommenderad modell

Om du vill visa testförutsägelserna som används för att beräkna testmåtten

  1. Gå till slutet av sidan och välj länken under Datauppsättning för utdata för att öppna datauppsättningen.
  2. På sidan Datauppsättningar väljer du fliken Utforska för att visa förutsägelserna från testjobbet.
    1. Du kan också visa/ladda ned förutsägelsefilen från fliken Utdata + loggar och expandera mappen Förutsägelser för att hitta predicted.csv filen.

Du kan också visa/ladda ned förutsägelsefilen från fliken Utdata + loggar. Expandera mappen Förutsägelser för att hitta predictions.csv filen.

Modelltestjobbet genererar predictions.csv-filen som lagras i standarddatalagringen som skapats med arbetsytan. Det här dataarkivet är synligt för alla användare med samma prenumeration. Testjobb rekommenderas inte för scenarier om någon information som används för eller skapas av testjobbet måste förbli privat.

Testa en befintlig automatiserad ML-modell (förhandsversion)

Viktigt

Att testa dina modeller med en testdatauppsättning för att utvärdera genererade modeller är en förhandsgranskningsfunktion. Den här funktionen är en experimentell förhandsgranskningsfunktion och kan ändras när som helst.

När experimentet är klart kan du testa de modeller som automatiserad ML genererar åt dig. Om du vill testa en annan automatiserad ML-genererad modell, inte den rekommenderade modellen, kan du göra det med följande steg.

  1. Välj ett befintligt automatiserat ML-experimentjobb.

  2. Gå till fliken Modeller för jobbet och välj den färdiga modell som du vill testa.

  3. På sidan Modellinformation väljer du knappen Testmodell (förhandsversion) för att öppna fönstret Testmodell .

  4. I fönstret Testmodell väljer du beräkningsklustret och en testdatauppsättning som du vill använda för testjobbet.

  5. Klicka på knappen Test. Schemat för testdatauppsättningen ska matcha träningsdatauppsättningen, men målkolumnen är valfri.

  6. När modelltestjobbet har skapats visas ett meddelande på sidan Information . Välj fliken Testresultat för att se förloppet för jobbet.

  7. Om du vill visa resultatet av testjobbet öppnar du sidan Information och följer stegen i avsnittet Visa resultat för fjärrtestjobbet .

    Formulär för testmodell

Modellförklaringar (förhandsversion)

För att bättre förstå din modell kan du se vilka datafunktioner (råa eller konstruerade) som påverkade modellens förutsägelser med instrumentpanelen för modellförklaringar.

Instrumentpanelen för modellförklaringar ger en övergripande analys av den tränade modellen tillsammans med dess förutsägelser och förklaringar. Du kan också öka detaljnivån för en enskild datapunkt och dess enskilda funktionsvikt. Läs mer om visualiseringar av förklaringsinstrumentpaneler.

För att få förklaringar till en viss modell,

  1. På fliken Modeller väljer du den modell som du vill förstå.

  2. Välj knappen Förklara modell och ange en beräkning som kan användas för att generera förklaringarna.

  3. Kontrollera statusen på fliken Underordnade jobb .

  4. När du är klar går du till fliken Förklaringar (förhandsversion) som innehåller instrumentpanelen för förklaringar.

    Instrumentpanel för modellförklaring

Redigera och skicka jobb (förhandsversion)

Viktigt

Möjligheten att kopiera, redigera och skicka ett nytt experiment baserat på ett befintligt experiment är en förhandsgranskningsfunktion. Den här funktionen är en experimentell förhandsgranskningsfunktion och kan ändras när som helst.

I scenarier där du vill skapa ett nytt experiment baserat på inställningarna för ett befintligt experiment ger automatiserad ML möjlighet att göra det med knappen Redigera och skicka i studiogränssnittet.

Den här funktionen är begränsad till experiment som initieras från studiogränssnittet och kräver att dataschemat för det nya experimentet matchar det ursprungliga experimentets.

Knappen Redigera och skicka öppnar guiden Skapa ett nytt automatiserat ML-jobb med förifyllda inställningar för data, beräkning och experiment. Du kan gå igenom varje formulär och redigera val efter behov för det nya experimentet.

Distribuera din modell

När du har den bästa modellen tillhands är det dags att distribuera den som en webbtjänst för att göra förutsägelser på nya data.

Tips

Om du vill distribuera en modell som har genererats via automl paketet med Python SDK måste du registrera din modell på arbetsytan.

När du är modell kan du hitta den i studion genom att välja Modeller i den vänstra rutan. När du har öppnat din modell kan du välja knappen Distribuera överst på skärmen och sedan följa anvisningarna som beskrivs i steg 2 i avsnittet Distribuera din modell .

Automatiserad ML hjälper dig att distribuera modellen utan att skriva kod:

  1. Du har ett par alternativ för distribution.

    • Alternativ 1: Distribuera den bästa modellen enligt de måttkriterier som du har definierat.

      1. När experimentet är klart navigerar du till den överordnade jobbsidan genom att välja Jobb 1 överst på skärmen.
      2. Välj den modell som anges i avsnittet Best model summary (Bästa modellsammanfattning ).
      3. Välj Distribuera längst upp till vänster i fönstret.
    • Alternativ 2: Distribuera en specifik modelliteration från det här experimentet.

      1. Välj den önskade modellen på fliken Modeller
      2. Välj Distribuera längst upp till vänster i fönstret.
  2. Fyll i fönstret Distribuera modell .

    Fält Värde
    Namn Ange ett unikt namn för distributionen.
    Description Ange en beskrivning för att bättre identifiera vad den här distributionen är till för.
    Typ av beräkning Välj den typ av slutpunkt som du vill distribuera: Azure Kubernetes Service (AKS) eller Azure Container Instance (ACI).
    Namn på beräkning Gäller endast för AKS: Välj namnet på det AKS-kluster som du vill distribuera till.
    Aktivera autentisering Välj för att tillåta tokenbaserad eller nyckelbaserad autentisering.
    Använda anpassade distributionstillgångar Aktivera den här funktionen om du vill ladda upp ett eget bedömningsskript och en egen miljöfil. Annars tillhandahåller automatiserad ML dessa tillgångar åt dig som standard. Läs mer om bedömningsskript.

    Viktigt

    Filnamn måste vara under 32 tecken och måste börja och sluta med alfanumeriska tecken. Får innehålla bindestreck, understreck, punkter och alfanumeriska tecken mellan. Blanksteg är inte tillåtna.

    På menyn Avancerat finns standardfunktioner för distribution som datainsamling och inställningar för resursutnyttjande. Om du vill åsidosätta dessa standardinställningar gör du det på den här menyn.

  3. Välj Distribuera. Det kan ta ungefär 20 minuter att slutföra distributionen. När distributionen börjar visas fliken Modellsammanfattning. Distributionsförloppet visas i avsnittet Distributionsstatus.

Nu har du ett fungerande webbtjänst för att generera förutsägelser! Du kan testa förutsägelserna genom att fråga tjänsten via Power BI:s inbyggda Azure Machine Learning-stöd.

Nästa steg