Självstudie: Träna en klassificeringsmodell utan kod för AutoML i Azure Machine Learning Studio

Lär dig hur du tränar en klassificeringsmodell utan kod för AutoML med azure machine learning automatiserad ML i Azure Machine Learning Studio. Den här klassificeringsmodellen förutsäger om en kund prenumererar på en fast deposition hos ett finansinstitut.

Med automatiserad ML kan du automatisera tidsintensiva uppgifter. Automatiserad maskininlärning itererar snabbt över många kombinationer av algoritmer och hyperparametrar som hjälper dig att hitta den bästa modellen baserat på ett lyckat mått som du väljer.

Du kommer inte att skriva någon kod i den här självstudien. Du använder studiogränssnittet för att utföra träning. Du får lära dig hur du utför följande uppgifter:

  • Skapa en Azure Machine Learning-arbetsyta.
  • Köra ett automatiserat maskininlärningsexperiment.
  • Utforska modellinformation.
  • Distribuera den rekommenderade modellen.

Prova även automatiserad maskininlärning för dessa andra modelltyper:

Förutsättningar

  • En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto.

  • Ladda ned bankmarketing_train.csv-datafilen . Kolumnen y anger om en kund prenumererar på en fast deposition, som senare identifieras som målkolumnen för förutsägelser i den här självstudien.

Skapa en arbetsyta

En Azure Machine Learning-arbetsyta är en grundläggande resurs i molnet som du använder för att experimentera, träna och distribuera maskininlärningsmodeller. Den kopplar din Azure-prenumeration och resursgrupp till ett objekt som är enkelt att använda i tjänsten.

Det finns många sätt att skapa en arbetsyta. I den här självstudien skapar du en arbetsyta via Azure-Portal, en webbaserad konsol för att hantera dina Azure-resurser.

  1. Logga in på Azure-Portal med autentiseringsuppgifterna för din Azure-prenumeration.

  2. I det övre vänstra hörnet av Azure-Portal väljer du de tre staplarna och sedan + Skapa en resurs.

    Skärmbild som visar + Skapa en resurs.

  3. Använd sökfältet för att hitta Azure Machine Learning.

  4. Välj Azure Machine Learning.

    Skärmbild som visar sökresultat för att välja Machine Learning.

  5. I fönstret Machine Learning väljer du Skapa för att börja.

  6. Ange följande information för att konfigurera den nya arbetsytan:

    Fält Beskrivning
    Namn på arbetsyta Ange ett unikt namn som identifierar din arbetsyta. I det här exemplet använder vi docs-ws. Namn måste vara unika i hela resursgruppen. Använd ett namn som är enkelt att komma ihåg och som skiljer sig från arbetsytor som skapats av andra.
    Prenumeration Välj den Azure-prenumeration som du vill använda.
    Resursgrupp Använd en befintlig resursgrupp i din prenumeration eller ange ett namn för att skapa en ny resursgrupp. En resursgrupp innehåller relaterade resurser för en Azure-lösning. I det här exemplet använder vi docs-aml.
    Region Välj den plats som är närmast dina användare och dataresurserna för att skapa din arbetsyta.
    Lagringskonto Ett lagringskonto används som standarddatalager för arbetsytan. Du kan skapa en ny Azure Storage-resurs eller välja en befintlig i din prenumeration.
    Nyckelvalv Ett nyckelvalv används för att lagra hemligheter och annan känslig information som krävs av arbetsytan. Du kan skapa en ny Azure 密钥保管库 resurs eller välja en befintlig resurs i din prenumeration.
    Application Insights Arbetsytan använder Azure Application Insights för att lagra övervakningsinformation om dina distribuerade modeller. Du kan skapa en ny Azure Application Insights-resurs eller välja en befintlig resurs i din prenumeration.
    Containerregister Ett containerregister används för att registrera Docker-avbildningar som används i träning och distributioner. Du kan välja att skapa en resurs eller välja en befintlig i din prenumeration.
  7. När du är klar med att konfigurera arbetsytan väljer du Granska + skapa.

  8. Välj Skapa för att skapa arbetsytan.

    Varning

    Det kan ta flera minuter att skapa din arbetsyta i molnet.

    När processen är klar visas ett meddelande om att distributionen lyckades.

  9. Om du vill visa den nya arbetsytan väljer du Gå till resurs.

  10. I portalvyn för din arbetsyta väljer du Starta studio för att gå till Azure Machine Learning Studio.

Viktigt

Anteckna din arbetsyta och prenumeration. Du behöver dessa för att se till att du skapar experimentet på rätt plats.

Logga in i studio

Du slutför följande experimentuppsättning och kör steg via Azure Machine Learning Studio på https://ml.azure.com, ett konsoliderat webbgränssnitt som innehåller maskininlärningsverktyg för att utföra datavetenskapsscenarier för datavetenskapsutövare på alla kunskapsnivåer. Studio stöds inte i Internet Explorer-webbläsare.

  1. Logga in på Azure Machine Learning Studio.

  2. Välj din prenumeration och arbetsytan som du skapade.

  3. Välj Kom igång.

  4. I den vänstra rutan väljer du Automatiserad ML under avsnittet Författare .

    Eftersom det här är ditt första automatiserade ML-experiment visas en tom lista och länkar till dokumentationen.

    Sidan Kom igång

  5. Välj +Nytt automatiserat ML-jobb.

Skapa och läsa in datauppsättning

Innan du konfigurerar experimentet laddar du upp datafilen till din arbetsyta i form av en Azure Machine Learning-datauppsättning. På så sätt kan du se till att dina data är rätt formaterade för experimentet.

  1. Skapa en ny datauppsättning genom att välja Från lokala filer i listrutan +Skapa datauppsättning .

    1. I formuläret Grundläggande information ger du datauppsättningen ett namn och anger en valfri beskrivning. Det automatiserade ML-gränssnittet stöder för närvarande endast TabularDatasets, så datamängdstypen bör som standard vara Tabell.

    2. Välj Nästa längst ned till vänster

    3. I formuläret Datalager och val av fil väljer du det standarddatalager som konfigurerades automatiskt när arbetsytan skapades, workspaceblobstore (Azure Blob Storage). Det är här du laddar upp datafilen för att göra den tillgänglig för din arbetsyta.

    4. Välj Ladda upp filer i listrutan Ladda upp .

    5. Välj denbankmarketing_train.csv filen på den lokala datorn. Det här är den fil som du laddade ned som en förutsättning.

    6. Välj Nästa längst ned till vänster för att ladda upp den till standardcontainern som konfigurerades automatiskt när arbetsytan skapades.

      När uppladdningen är klar fylls formuläret Inställningar och förhandsgranskning i baserat på filtypen.

    7. Kontrollera att formuläret Inställningar och förhandsgranskning fylls i på följande sätt och välj Nästa.

      Fält Beskrivning Värde för självstudie
      Filformat Definierar layouten och typen av data som lagras i en fil. Avgränsade
      Avgränsare Ett eller flera tecken för att ange gränsen mellan separata, oberoende regioner i oformaterad text eller andra dataströmmar. Komma
      Kodning Identifierar vilken bit till teckenschematabell som ska användas för att läsa datauppsättningen. UTF-8
      Kolumnrubriker Anger hur eventuella sidhuvuden i datauppsättningen kommer att behandlas. Alla filer har samma rubriker
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen. Ingen
    8. Schemaformuläret möjliggör ytterligare konfiguration av dina data för det här experimentet. I det här exemplet väljer du växeln för day_of_week, så att den inte inkluderas. Välj Nästa. Schemaformulär

    9. I formuläret Bekräfta information kontrollerar du att informationen matchar det som tidigare fyllts i i formulären Grundläggande information, Datalager och filvalsamt Inställningar och förhandsgranskningsformulär .

    10. Välj Skapa för att slutföra skapandet av datauppsättningen.

    11. Välj din datauppsättning när den visas i listan.

    12. Granska dataförhandsgranskningen för att se till att du inte tog med day_of_week och välj sedan Stäng.

    13. Välj Nästa.

Konfigurera jobb

När du har läst in och konfigurerat dina data kan du konfigurera experimentet. Den här konfigurationen innehåller experimentdesignuppgifter som att välja storleken på beräkningsmiljön och ange vilken kolumn du vill förutsäga.

  1. Välj alternativknappen Skapa ny .

  2. Fyll i formuläret Konfigurera jobb på följande sätt:

    1. Ange det här experimentnamnet: my-1st-automl-experiment

    2. Välj y som målkolumn, det du vill förutsäga. Den här kolumnen anger om klienten prenumererar på en terminsättning eller inte.

    3. Välj beräkningskluster som beräkningstyp.

    4. +Ny för att konfigurera beräkningsmålet. Ett beräkningsmål är en lokal eller molnbaserad resursmiljö som används för att köra träningsskriptet eller vara värd för tjänstdistributionen. I det här experimentet använder vi en molnbaserad beräkning.

      1. Fyll i formuläret Välj virtuell dator för att konfigurera beräkningen.

        Fält Beskrivning Värde för självstudie
        Location Din region som du vill köra datorn från USA, västra 2
        Nivå för virtuell dator Välj vilken prioritet experimentet ska ha Dedikerad
        Typ av virtuell dator Välj den virtuella datortypen för beräkningen. CPU (central bearbetningsenhet)
        Storlek för virtuell dator Välj storleken på den virtuella datorn för beräkningen. En lista över rekommenderade storlekar tillhandahålls baserat på dina data och experimenttypen. Standard_DS12_V2
      2. Välj Nästa för att fylla i formuläret Konfigurera inställningar.

        Fält Beskrivning Värde för självstudie
        Namn på beräkning Ett unikt namn som identifierar beräkningskontexten. automl-compute
        Min/Max-noder Om du vill profilera data måste du ange 1 eller flera noder. Minsta antal noder: 1
        Maximalt antal noder: 6
        Inaktiva sekunder innan nedskalning Inaktivitetstid innan klustret skalas ned automatiskt till minsta antal noder. 120 (standard)
        Avancerade inställningar Inställningar för att konfigurera och auktorisera ett virtuellt nätverk för experimentet. Ingen
      3. Välj Skapa för att skapa beräkningsmålet.

        Det tar några minuter att slutföra.

        Sidan Inställningar

      4. När du har skapat det väljer du ditt nya beräkningsmål i listrutan.

    5. Välj Nästa.

  3. I formuläret Välj uppgift och inställningar slutför du konfigurationen för ditt automatiserade ML-experiment genom att ange maskininlärningsaktivitetstyp och konfigurationsinställningar.

    1. Välj Klassificering som typ av maskininlärningsuppgift.

    2. Välj Visa ytterligare konfigurationsinställningar och fyll i fälten på följande sätt. De här inställningarna är till för att bättre kontrollera träningsjobbet. Annars tillämpas standardvärden baserat på val av experiment och data.

      Ytterligare konfigurationer Beskrivning Värde för självstudie
      Primärt mått Utvärderingsmått som maskininlärningsalgoritmen mäts med. AUC_weighted
      Förklara den bästa modellen Visar automatiskt förklaring för den bästa modellen som skapats av automatiserad ML. Aktivera
      Blockerade algoritmer Algoritmer som du vill undanta från träningsjobbet Ingen
      Ytterligare klassificeringsinställningar De här inställningarna hjälper till att förbättra modellens noggrannhet Positiv klassetikett: Ingen
      Avslutningsvillkor Om ett villkor uppfylls stoppas träningsjobbet. Tid för träningsjobb (timmar): 1
      Tröskelvärde för måttpoäng: Ingen
      Samtidighet Det maximala antalet parallella iterationer som körs per iteration Maximalt antal samtidiga iterationer: 5

      Välj Spara.

    3. Välj Nästa.

  4. I formuläret [Valfritt] Verifiera och testa ,

    1. Välj k-fold korsvalidering som valideringstyp.
    2. Välj 2 som antal korsvalideringar.
  5. Välj Slutför för att köra experimentet. Skärmen Jobbinformation öppnas med jobbstatusen överst när experimentförberedelsen börjar. Den här statusen uppdateras när experimentet fortskrider. Meddelanden visas också i det övre högra hörnet i studio för att informera dig om experimentets status.

Viktigt

Förberedelsen tar 10–15 minuter att förbereda experimentkörningen. När den körs tar det 2–3 minuter till för varje iteration.

I produktion skulle du förmodligen gå iväg en stund. Men i den här självstudien föreslår vi att du börjar utforska de testade algoritmerna på fliken Modeller när de slutförs medan de andra fortfarande körs.

Utforska modeller

Gå till fliken Modeller för att se vilka algoritmer (modeller) som testats. Som standard sorteras modellerna efter måttpoäng när de slutförs. I den här självstudien finns den modell som får högst poäng baserat på det valda AUC_weighted måttet överst i listan.

Medan du väntar på att alla experimentmodeller ska slutföras väljer du algoritmnamnet för en slutförd modell för att utforska dess prestandainformation.

Följande navigerar genom flikarna Information och Mått för att visa den valda modellens egenskaper, mått och prestandadiagram.

Köra iterationsinformation

Modellförklaringar

Medan du väntar på att modellerna ska slutföras kan du också ta en titt på modellförklaringar och se vilka datafunktioner (råa eller konstruerade) som påverkade en viss modells förutsägelser.

Dessa modellförklaringar kan genereras på begäran och sammanfattas på instrumentpanelen för modellförklaringar som är en del av fliken Förklaringar (förhandsversion).

Om du vill generera modellförklaringar

  1. Välj Jobb 1 längst upp för att gå tillbaka till skärmen Modeller .

  2. Välj fliken Modeller .

  3. I den här självstudien väljer du den första MaxAbsScaler, LightGBM-modellen .

  4. Välj knappen Förklara modell längst upp. Till höger visas fönstret Förklara modell .

  5. Välj den automl-compute som du skapade tidigare. Det här beräkningsklustret initierar ett underordnat jobb för att generera modellförklaringarna.

  6. Välj Skapa längst ned. Ett grönt meddelande visas överst på skärmen.

    Anteckning

    Förklarbarhetsjobbet tar cirka 2–5 minuter att slutföra.

  7. Välj knappen Förklaringar (förhandsversion). Den här fliken fylls i när förklaringskörningen har slutförts.

  8. På vänster sida expanderar du fönstret och väljer den rad som säger under Funktioner.

  9. Välj fliken Mängdfunktionsbetydning till höger. Det här diagrammet visar vilka datafunktioner som påverkade förutsägelserna för den valda modellen.

    I det här exemplet verkar varaktigheten ha störst inverkan på modellens förutsägelser.

    Instrumentpanel för modellförklaring

Distribuera den bästa modellen

Med det automatiserade maskininlärningsgränssnittet kan du distribuera den bästa modellen som en webbtjänst i några få steg. Distribution är integreringen av modellen så att den kan förutsäga nya data och identifiera potentiella möjligheter.

I det här experimentet innebär distributionen till en webbtjänst att finansinstitutet nu har en iterativ och skalbar webblösning för att identifiera potentiella kunder med fast tidsinsättning.

Kontrollera om experimentkörningen är klar. Det gör du genom att gå tillbaka till den överordnade jobbsidan genom att välja Jobb 1 överst på skärmen. Statusen Slutförd visas längst upp till vänster på skärmen.

När experimentkörningen är klar fylls sidan Information i med en sammanfattning av bästa modell . I den här experimentkontexten anses VotingEnsemble vara den bästa modellen baserat på måttet AUC_weighted .

Vi distribuerar den här modellen, men vi rekommenderar att distributionen tar cirka 20 minuter att slutföra. Distributionsprocessen omfattar flera steg, inklusive registrering av modellen, generering av resurser och konfiguration av dem för webbtjänsten.

  1. Välj VotingEnsemble för att öppna den modellspecifika sidan.

  2. Välj menyn Distribuera längst upp till vänster och välj Distribuera till webbtjänst.

  3. Fyll i fönstret Distribuera en modell på följande sätt:

    Fält Värde
    Distributionsnamn my-automl-deploy
    Distributionsbeskrivning Min första automatiserade distribution av maskininlärningsexperiment
    Typ av beräkning Välj Azure Container Instance (ACI)
    Aktivera autentisering Inaktivera.
    Använda anpassade distributioner Inaktivera. Tillåter att standarddrivrutinsfilen (bedömningsskriptet) och miljöfilen genereras automatiskt.

    I det här exemplet använder vi standardvärdena i menyn Avancerat .

  4. Välj Distribuera.

    Ett grönt meddelande visas överst på skärmen Jobb och i fönstret Modellsammanfattning visas ett statusmeddelande under Distributionsstatus. Välj Uppdatera regelbundet för att kontrollera distributionsstatusen.

Nu har du en fungerande webbtjänst för att generera förutsägelser.

Gå vidare till Nästa steg om du vill veta mer om hur du använder din nya webbtjänst och testa dina förutsägelser med hjälp av Power BI:s inbyggda Azure Machine Learning-stöd.

Rensa resurser

Distributionsfiler är större än data- och experimentfiler, så de kostar mer att lagra. Ta bara bort distributionsfilerna för att minimera kostnaderna för ditt konto, eller om du vill behålla arbetsytan och experimentfilerna. Annars tar du bort hela resursgruppen om du inte planerar att använda någon av filerna.

Ta bort distributionsinstansen

Ta bara bort distributionsinstansen från Azure Machine Learning på https://ml.azure.com/, om du vill behålla resursgruppen och arbetsytan för andra självstudier och utforskning.

  1. Gå till Azure Machine Learning. Gå till din arbetsyta och till vänster under fönstret Tillgångar väljer du Slutpunkter.

  2. Välj den distribution som du vill ta bort och välj Ta bort.

  3. Välj Fortsätt.

Ta bort resursgruppen

Viktigt

De resurser som du har skapat kan användas som förutsättningar för andra Azure Machine Learning-självstudier och instruktionsartiklar.

Om du inte planerar att använda någon av de resurser som du skapade tar du bort dem så att du inte debiteras några avgifter:

  1. I Azure-portalen väljer du Resursgrupper längst till vänster.

  2. Välj resursgruppen som du skapade från listan.

  3. Välj Ta bort resursgrupp.

    Skärmbild av valen för att ta bort en resursgrupp i Azure Portal.

  4. Ange resursgruppsnamnet. Välj sedan Ta bort.

Nästa steg

I den här självstudien om automatiserad maskininlärning använde du Azure Machine Learnings automatiserade ML-gränssnitt för att skapa och distribuera en klassificeringsmodell. Mer information och nästa steg finns i de här artiklarna:

Anteckning

Den här bankmarknadsföringsdatauppsättningen görs tillgänglig under Creative Commons-licensen (CCO: Public Domain). Alla rättigheter i det enskilda innehållet i databasen licensieras under licensen för databasinnehåll och är tillgängliga på Kaggle. Den här datauppsättningen var ursprungligen tillgänglig i UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez och P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22–31, juni 2014.