Självstudie: Träna en klassificeringsmodell utan kod för AutoML i Azure Machine Learning-studio

Lär dig hur du tränar en klassificeringsmodell med AutoML utan kod med azure machine learning automatiserad ML i Azure Machine Learning-studio. Den här klassificeringsmodellen förutsäger om en kund prenumererar på en fast deposition hos ett finansinstitut.

Med automatiserad ML kan du automatisera tidsintensiva uppgifter. Automatiserad maskininlärning itererar snabbt över många kombinationer av algoritmer och hyperparametrar som hjälper dig att hitta den bästa modellen baserat på ett lyckat mått som du väljer.

Du kommer inte att skriva någon kod i den här självstudien. Du använder studiogränssnittet för att träna. Du får lära dig hur du utför följande uppgifter:

  • Skapa en Azure Machine Learning-arbetsyta.
  • Köra ett automatiserat maskininlärningsexperiment.
  • Utforska modellinformation.
  • Distribuera den rekommenderade modellen.

Prova även automatiserad maskininlärning för dessa andra modelltyper:

Förutsättningar

  • En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto.

  • Ladda ned bankmarketing_train.csv datafilen. Kolumnen y anger om en kund prenumererar på en fast deposition, som senare identifieras som målkolumnen för förutsägelser i den här självstudien.

Skapa en arbetsyta

En Azure Machine Learning-arbetsyta är en grundläggande resurs i molnet som du använder för att experimentera, träna och distribuera maskininlärningsmodeller. Den kopplar din Azure-prenumeration och resursgrupp till ett objekt som är enkelt att använda i tjänsten.

I den här självstudien utför du följande steg för att skapa en arbetsyta och fortsätta självstudien.

  1. Logga in på Azure Machine Learning-studio

  2. Välj Skapa arbetsyta

  3. Ange följande information för att konfigurera den nya arbetsytan:

Fält beskrivning
Namn på arbetsyta Ange ett unikt namn som identifierar din arbetsyta. Namn måste vara unika i resursgruppen. Använd ett namn som är enkelt att återkalla och skilja från arbetsytor som skapats av andra. Arbetsytans namn är skiftlägeskänsligt.
Prenumeration Välj den Azure-prenumeration som du vill använda.
Resursgrupp Använd en befintlig resursgrupp i din prenumeration eller ange ett namn för att skapa en ny resursgrupp. En resursgrupp innehåller relaterade resurser för en Azure-lösning. Du behöver rollen deltagare eller ägare för att kunna använda en befintlig resursgrupp. Mer information om åtkomst finns i Hantera åtkomst till en Azure Machine Learning-arbetsyta.
Region Välj den Azure-region som är närmast dina användare och dataresurserna för att skapa din arbetsyta.
  1. Välj Skapa för att skapa arbetsytan

Mer information om Azure-resurser finns i stegen i den här artikeln: Skapa resurser som du behöver för att komma igång.

För andra sätt att skapa en arbetsyta i Azure kan du hantera Azure Machine Learning-arbetsytor i portalen eller med Python SDK (v2).

Skapa ett automatiserat maskininlärningsjobb

Du utför följande experimentuppsättning och kör steg via Azure Machine Learning-studio på https://ml.azure.com, ett konsoliderat webbgränssnitt som innehåller maskininlärningsverktyg för att utföra datavetenskapsscenarier för datavetenskapsutövare på alla kunskapsnivåer. Studio stöds inte i Internet Explorer-webbläsare.

  1. Välj din prenumeration och den arbetsyta som du skapade.

  2. I den vänstra rutan väljer du Automatiserad ML under avsnittet Redigering .

    Eftersom det här är ditt första automatiserade ML-experiment visas en tom lista och länkar till dokumentationen.

    Get started page

  3. Välj +Nytt automatiserat ML-jobb.

Skapa och läsa in en datauppsättning som en datatillgång

Innan du konfigurerar experimentet laddar du upp datafilen till din arbetsyta i form av en Azure Machine Learning-datatillgång. I den här självstudien kan du se en datatillgång som din datauppsättning för AutoML-jobbet. På så sätt kan du se till att dina data är korrekt formaterade för experimentet.

  1. Skapa en ny datatillgång genom att välja Från lokala filer i listrutan +Skapa datatillgång .

    1. Ge datatillgången ett namn i formuläret Grundläggande information och ange en valfri beskrivning. Det automatiserade ML-gränssnittet stöder för närvarande endast TabularDatasets, så datamängdstypen bör som standard vara Tabell.

    2. Välj Nästa längst ned till vänster

    3. I formuläret För val av datalager och fil väljer du det standarddatalager som konfigurerades automatiskt när du skapade arbetsytan, workspaceblobstore (Azure Blob Storage). Det är här du laddar upp datafilen för att göra den tillgänglig för din arbetsyta.

    4. Välj Ladda upp filer i listrutan Ladda upp .

    5. Välj filen bankmarketing_train.csv på den lokala datorn. Det här är filen som du laddade ned som en förutsättning.

    6. Välj Nästa längst ned till vänster för att ladda upp den till standardcontainern som konfigurerades automatiskt när arbetsytan skapades.

      När uppladdningen är klar fylls Inställningar- och förhandsgranskningsformuläret i förväg baserat på filtypen.

    7. Kontrollera att dina data är korrekt formaterade via formuläret Schema . Data bör fyllas i på följande sätt. När du har kontrollerat att data är korrekta väljer du Nästa.

      Fält beskrivning Värde för självstudie
      File format Definierar layouten och typen av data som lagras i en fil. Avgränsad
      Delimiter Ett eller flera tecken för att ange gränsen mellan separata, oberoende regioner i oformaterad text eller andra dataströmmar. Comma
      Encoding Identifierar vilken bit till teckenschematabell som ska användas för att läsa datauppsättningen. UTF-8
      Kolumnrubriker Anger hur sidhuvudena i datauppsättningen, om några, kommer att behandlas. Alla filer har samma rubriker
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen. Ingen
    8. Schemaformuläret möjliggör ytterligare konfiguration av dina data för det här experimentet. I det här exemplet väljer du växlaren för day_of_week för att inte inkludera den. Välj Nästa. Schema form

    9. I formuläret Bekräfta information kontrollerar du att informationen matchar det som tidigare fyllts i i formulären Grundläggande information, Datalager och fil och Inställningar och förhandsversion.

    10. Välj Skapa för att slutföra skapandet av datauppsättningen.

    11. Välj din datauppsättning när den visas i listan.

    12. Granska data genom att välja datatillgången och titta på förhandsgranskningsfliken som fylls i för att säkerställa att du inte tog med day_of_week sedan väljer du Stäng.

    13. Välj Nästa.

Konfigurera jobb

När du har läst in och konfigurerat dina data kan du konfigurera experimentet. Den här konfigurationen innehåller experimentdesignuppgifter som att välja storleken på beräkningsmiljön och ange vilken kolumn du vill förutsäga.

  1. Välj knappen Skapa ny alternativ.

  2. Fyll i formuläret Konfigurera jobb på följande sätt:

    1. Ange det här experimentnamnet: my-1st-automl-experiment

    2. Välj y som målkolumn, det du vill förutsäga. Den här kolumnen anger om klienten prenumererar på en terminsättning eller inte.

    3. Välj beräkningskluster som beräkningstyp.

    4. Ett beräkningsmål är en lokal eller molnbaserad resursmiljö som används för att köra träningsskriptet eller vara värd för tjänstdistributionen. I det här experimentet kan du antingen prova en molnbaserad serverlös beräkning (förhandsversion) eller skapa en egen molnbaserad beräkning.

      1. Om du vill använda serverlös beräkning aktiverar du förhandsgranskningsfunktionen, väljer Serverlös och hoppar över resten av det här steget.
      2. Om du vill skapa ett eget beräkningsmål väljer du +Nytt för att konfigurera beräkningsmålet.
        1. Fyll i formuläret Välj virtuell dator för att konfigurera din beräkning.

          Fält beskrivning Värde för självstudie
          Plats Din region som du vill köra datorn från Västra USA 2
          Nivå för virtuell dator Välj vilken prioritet experimentet ska ha Dedikerad
          Typ av virtuell dator Välj den virtuella datortypen för din beräkning. CPU (central bearbetningsenhet)
          Storlek för virtuell dator Välj storleken på den virtuella datorn för din beräkning. En lista över rekommenderade storlekar tillhandahålls baserat på dina data och experimenttyp. Standard_DS12_V2
        2. Välj Nästa för att fylla i formuläret Konfigurera inställningar.

          Fält beskrivning Värde för självstudie
          Namn på beräkning Ett unikt namn som identifierar din beräkningskontext. automl-compute
          Min/Max-noder Om du vill profilera data måste du ange 1 eller flera noder. Minsta noder: 1
          Maximalt antal noder: 6
          Inaktiva sekunder innan nedskalning Inaktiv tid innan klustret skalas ned automatiskt till minsta antal noder. 120 (standard)
          Avancerade inställningar Inställningar för att konfigurera och auktorisera ett virtuellt nätverk för experimentet. Ingen
        3. Välj Skapa för att skapa beräkningsmålet.

          Det tar några minuter att slutföra.

          Settings page

        4. När du har skapat väljer du ditt nya beräkningsmål i listrutan.

    5. Välj Nästa.

  3. I formuläret Välj uppgift och inställningar slutför du konfigurationen för ditt automatiserade ML-experiment genom att ange maskininlärningsaktivitetstyp och konfigurationsinställningar.

    1. Välj Klassificering som maskininlärningsaktivitetstyp.

    2. Välj Visa ytterligare konfigurationsinställningar och fyll i fälten enligt följande. De här inställningarna är till för att bättre kontrollera träningsjobbet. Annars tillämpas standardvärden baserat på experimentval och data.

      Ytterligare konfigurationer beskrivning Värde för självstudie
      Primärt mått Utvärderingsmått som maskininlärningsalgoritmen ska mätas med. AUC_weighted
      Förklara bästa modell Visar automatiskt förklaring på den bästa modellen som skapats av automatiserad ML. Aktivera
      Blockerade algoritmer Algoritmer som du vill undanta från träningsjobbet Ingen
      Ytterligare klassificeringsinställningar De här inställningarna hjälper till att förbättra noggrannheten i din modell Positiv klassetikett: Ingen
      Avslutningsvillkor Om ett villkor uppfylls stoppas träningsjobbet. Tid för träningsjobb (timmar): 1
      Tröskelvärde för måttpoäng: Ingen
      Samtidighet Det maximala antalet parallella iterationer som körs per iteration Maximalt antal samtidiga iterationer: 5

      Välj Spara.

    3. Välj Nästa.

  4. I formuläret [Valfritt] Verifiera och testa ,

    1. Välj k-fold korsvalidering som valideringstyp.
    2. Välj 2 som antal korsvalideringar.
  5. Välj Slutför för att köra experimentet. Skärmen Jobbinformation öppnas med jobbstatus överst när experimentförberedelsen börjar. Den här statusen uppdateras när experimentet fortskrider. Meddelanden visas också i det övre högra hörnet i studion för att informera dig om statusen för experimentet.

Viktigt!

Det tar 10–15 minuter att förbereda experimentkörningen. När du har kört tar det 2–3 minuter till för varje iteration.

I produktion skulle du förmodligen gå iväg en stund. Men i den här självstudien föreslår vi att du börjar utforska de testade algoritmerna på fliken Modeller när de slutförs medan de andra fortfarande körs.

Utforska modeller

Gå till fliken Modeller för att se vilka algoritmer (modeller) som testats. Som standard sorteras modellerna efter måttpoäng när de slutförs. I den här självstudien finns den modell som får högst poäng baserat på det valda AUC_weighted måttet överst i listan.

Medan du väntar på att alla experimentmodeller ska slutföras väljer du algoritmnamnet för en slutförd modell för att utforska dess prestandainformation.

Följande navigerar genom flikarna Information och Mått för att visa den valda modellens egenskaper, mått och prestandadiagram.

Run iteration detail

Modellförklaringar

Medan du väntar på att modellerna ska slutföras kan du också ta en titt på modellförklaringar och se vilka datafunktioner (råa eller konstruerade) som påverkade en viss modells förutsägelser.

Dessa modellförklaringar kan genereras på begäran och sammanfattas i instrumentpanelen för modellförklaringar som är en del av fliken Förklaringar (förhandsversion ).

Generera modellförklaringar genom att

  1. Välj Jobb 1 längst upp för att gå tillbaka till skärmen Modeller .

  2. Välj fliken Modeller .

  3. I den här självstudien väljer du den första MaxAbsScaler, LightGBM-modellen .

  4. Välj knappen Förklara modell överst. Till höger visas fönstret Förklara modell .

  5. Välj den automl-compute som du skapade tidigare. Det här beräkningsklustret initierar ett underordnat jobb för att generera modellförklaringarna.

  6. Välj Skapa längst ned. Ett grönt meddelande visas överst på skärmen.

    Kommentar

    Det tar cirka 2–5 minuter att slutföra förklaringsjobbet.

  7. Välj knappen Förklaringar (förhandsversion). Den här fliken fylls i när förklaringskörningen är klar.

  8. Expandera fönstret till vänster och välj den rad som säger under Funktioner.

  9. Välj fliken Mängdfunktionsvikt till höger. Det här diagrammet visar vilka datafunktioner som påverkade förutsägelserna för den valda modellen.

    I det här exemplet verkar varaktigheten ha störst inverkan på förutsägelserna för den här modellen.

    Model explanation dashboard

Distribuera den bästa modellen

Med det automatiserade maskininlärningsgränssnittet kan du distribuera den bästa modellen som en webbtjänst i några få steg. Distribution är integreringen av modellen så att den kan förutsäga nya data och identifiera potentiella affärsmöjligheter.

I det här experimentet innebär distributionen till en webbtjänst att finansinstitutet nu har en iterativ och skalbar webblösning för att identifiera potentiella kunder med fast tidsinsättning.

Kontrollera om experimentkörningen är klar. Det gör du genom att gå tillbaka till den överordnade jobbsidan genom att välja Jobb 1 överst på skärmen. Statusen Slutförd visas längst upp till vänster på skärmen.

När experimentkörningen är klar fylls sidan Information i med avsnittet Bästa modellsammanfattning . I det här experimentsammanhanget anses VotingEnsemble vara den bästa modellen, baserat på måttet AUC_weighted.

Vi distribuerar den här modellen, men se till att distributionen tar cirka 20 minuter att slutföra. Distributionsprocessen innebär flera steg, inklusive registrering av modellen, generering av resurser och konfiguration av dem för webbtjänsten.

  1. Välj VotingEnsemble för att öppna den modellspecifika sidan.

  2. Välj menyn Distribuera längst upp till vänster och välj Distribuera till webbtjänst.

  3. Fyll i fönstret Distribuera en modell på följande sätt:

    Fält Värde
    Distributionsnamnet my-automl-deploy
    Distributionsbeskrivning Min första automatiserade distribution av maskininlärningsexperiment
    Typ av beräkning Välj Azure Container Instance (ACI)
    Aktivera autentisering Inaktivera.
    Använda anpassade distributioner Inaktivera. Tillåter att standarddrivrutinsfilen (bedömningsskriptet) och miljöfilen genereras automatiskt.

    I det här exemplet använder vi standardvärdena i menyn Avancerat .

  4. Välj distribuera.

    Ett grönt meddelande visas överst på skärmen Jobb och i fönstret Modellsammanfattning visas ett statusmeddelande under Distribuera status. Välj Uppdatera regelbundet för att kontrollera distributionsstatusen.

Nu har du en fungerande webbtjänst som genererar förutsägelser.

Gå vidare till Nästa steg för att lära dig mer om hur du använder din nya webbtjänst och testa dina förutsägelser med hjälp av Power BI:s inbyggda Stöd för Azure Machine Learning.

Rensa resurser

Distributionsfiler är större än data- och experimentfiler, så de kostar mer att lagra. Ta bara bort distributionsfilerna för att minimera kostnaderna för ditt konto, eller om du vill behålla arbetsytan och experimentfilerna. Annars tar du bort hela resursgruppen om du inte planerar att använda någon av filerna.

Ta bort distributionsinstansen

Ta bara bort distributionsinstansen från Azure Machine Learning på https://ml.azure.com/, om du vill behålla resursgruppen och arbetsytan för andra självstudier och utforskning.

  1. Gå till Azure Machine Learning. Gå till din arbetsyta och välj Slutpunkter till vänster under fönstret Tillgångar.

  2. Välj den distribution som du vill ta bort och välj Ta bort.

  3. Välj Fortsätt.

Ta bort resursgruppen

Viktigt!

De resurser som du har skapat kan användas som förutsättningar för andra Azure Machine Learning-självstudier och instruktionsartiklar.

Om du inte planerar att använda någon av de resurser som du har skapat tar du bort dem så att du inte debiteras några avgifter:

  1. I Azure-portalen väljer du Resursgrupper längst till vänster.

  2. I listan väljer du den resursgrupp som du skapade.

  3. Välj Ta bort resursgrupp.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. Ange resursgruppsnamnet. Välj sedan ta bort.

Nästa steg

I den här självstudien om automatiserad maskininlärning använde du Azure Machine Learnings automatiserade ML-gränssnitt för att skapa och distribuera en klassificeringsmodell. Mer information och nästa steg finns i de här artiklarna:

Kommentar

Den här bankmarknadsföringsdatauppsättningen görs tillgänglig under creative commons-licensen (CCO: Public Domain). Alla rättigheter i det enskilda innehållet i databasen licensieras under licensen för databasinnehåll och är tillgängliga på Kaggle. Den här datamängden var ursprungligen tillgänglig i UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez och P. Rita. En datadriven metod för att förutsäga hur framgångsrik banktelemarketing är. Beslutsstödsystem, Elsevier, 62:22-31, juni 2014.