Självstudie: Prognostisera efterfrågan utan kod automatiserad maskininlärning i Azure Machine Learning-studio

Lär dig hur du skapar en prognosmodell för tidsserier utan att skriva en enda kodrad med hjälp av automatiserad maskininlärning i Azure Machine Learning-studio. Den här modellen förutsäger efterfrågan på uthyrning för en cykeldelningstjänst.

Du skriver ingen kod i den här självstudien. Du använder studiogränssnittet för att träna. Du lär dig hur du utför följande uppgifter:

  • Skapa och läsa in en datauppsättning.
  • Konfigurera och kör ett automatiserat ML-experiment.
  • Ange prognosinställningar.
  • Utforska experimentresultaten.
  • Distribuera den bästa modellen.

Prova även automatiserad maskininlärning för dessa andra modelltyper:

Förutsättningar

Logga in i studion

I den här självstudien skapar du ditt automatiserade ML-experiment som körs i Azure Machine Learning-studio, ett konsoliderat webbgränssnitt som innehåller maskininlärningsverktyg för att utföra datavetenskapsscenarier för datavetenskapsutövare på alla kunskapsnivåer. Studio stöds inte i Internet Explorer-webbläsare.

  1. Logga in på Azure Machine Learning-studio.

  2. Välj din prenumeration och den arbetsyta som du skapade.

  3. Välj Komma igång.

  4. I den vänstra rutan väljer du Automatiserad ML under avsnittet Författare .

  5. Välj +Nytt automatiserat ML-jobb.

Skapa och läsa in datauppsättning

Innan du konfigurerar experimentet laddar du upp datafilen till din arbetsyta i form av en Azure Machine Learning-datauppsättning. På så sätt kan du se till att dina data är korrekt formaterade för experimentet.

  1. I formuläret Välj datauppsättning väljer du Från lokala filer i listrutan +Skapa datauppsättning .

    1. Ge datamängden ett namn i formuläret Grundläggande information och ange en valfri beskrivning. Datamängdstypen bör som standard vara Tabell, eftersom automatiserad ML i Azure Machine Learning-studio för närvarande endast stöder tabelldatauppsättningar.

    2. Välj Nästa längst ned till vänster

    3. I formuläret För val av datalager och fil väljer du det standarddatalager som konfigurerades automatiskt när du skapade arbetsytan, workspaceblobstore (Azure Blob Storage). Det här är lagringsplatsen där du laddar upp datafilen.

    4. Välj Ladda upp filer i listrutan Ladda upp .

    5. Välj filen bike-no.csv på den lokala datorn. Det här är filen som du laddade ned som en förutsättning.

    6. Välj Nästa

      När uppladdningen är klar fylls Inställningar- och förhandsgranskningsformuläret i förväg baserat på filtypen.

    7. Kontrollera att formuläret Inställningar och förhandsversionen fylls i på följande sätt och välj Nästa.

      Fält beskrivning Värde för självstudie
      File format Definierar layouten och typen av data som lagras i en fil. Avgränsad
      Delimiter Ett eller flera tecken för att ange gränsen mellan separata, oberoende regioner i oformaterad text eller andra dataströmmar. Comma
      Encoding Identifierar vilken bit till teckenschematabell som ska användas för att läsa datauppsättningen. UTF-8
      Kolumnrubriker Anger hur sidhuvudena i datauppsättningen, om några, kommer att behandlas. Endast den första filen har rubriker
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen. Ingen
    8. Schemaformuläret möjliggör ytterligare konfiguration av dina data för det här experimentet.

      1. I det här exemplet väljer du att ignorera de tillfälliga och registrerade kolumnerna. Dessa kolumner är en uppdelning av cnt-kolumnen , så därför tar vi inte med dem.

      2. I det här exemplet lämnar du även standardvärdena för egenskaper och typ.

      3. Välj Nästa.

    9. I formuläret Bekräfta information kontrollerar du att informationen matchar det som tidigare fyllts i i formulären Grundläggande information och Inställningar och förhandsversion.

    10. Välj Skapa för att slutföra skapandet av datauppsättningen.

    11. Välj din datauppsättning när den visas i listan.

    12. Välj Nästa.

Konfigurera jobb

När du har läst in och konfigurerat dina data konfigurerar du ditt fjärrberäkningsmål och väljer vilken kolumn i dina data som du vill förutsäga.

  1. Fyll i formuläret Konfigurera jobb på följande sätt:
    1. Ange ett experimentnamn: automl-bikeshare

    2. Välj cnt som målkolumn, det du vill förutsäga. Den här kolumnen anger antalet totala uthyrningar av cykelresurser.

    3. Välj beräkningskluster som beräkningstyp.

    4. Välj +Ny för att konfigurera beräkningsmålet. Automatiserad ML stöder endast Azure Machine Learning-beräkning.

      1. Fyll i formuläret Välj virtuell dator för att konfigurera din beräkning.

        Fält beskrivning Värde för självstudie
        Nivå för virtuell dator Välj vilken prioritet experimentet ska ha Dedikerad
        Typ av virtuell dator Välj den virtuella datortypen för din beräkning. CPU (central bearbetningsenhet)
        Storlek för virtuell dator Välj storleken på den virtuella datorn för din beräkning. En lista över rekommenderade storlekar tillhandahålls baserat på dina data och experimenttyp. Standard_DS12_V2
      2. Välj Nästa för att fylla i formuläret Konfigurera inställningar.

        Fält beskrivning Värde för självstudie
        Namn på beräkning Ett unikt namn som identifierar din beräkningskontext. bike-compute
        Min/Max-noder Om du vill profilera data måste du ange en eller flera noder. Minsta noder: 1
        Maximalt antal noder: 6
        Inaktiva sekunder innan nedskalning Inaktiv tid innan klustret skalas ned automatiskt till minsta antal noder. 120 (standard)
        Avancerade inställningar Inställningar för att konfigurera och auktorisera ett virtuellt nätverk för experimentet. Ingen
      3. Välj Skapa för att hämta beräkningsmålet.

        Det tar några minuter att slutföra.

      4. När du har skapat väljer du ditt nya beräkningsmål i listrutan.

    5. Välj Nästa.

Välj prognosinställningar

Slutför konfigurationen för ditt automatiserade ML-experiment genom att ange maskininlärningsaktivitetstyp och konfigurationsinställningar.

  1. I formuläret Aktivitetstyp och inställningar väljer du Prognostisering av tidsserier som maskininlärningsaktivitetstyp.

  2. Välj datum som kolumnen Tid och lämna tidsserieidentifierarna tomma.

  3. Frekvensen är hur ofta dina historiska data samlas in. Behåll Autodetect markerat.

  4. Prognoshorisonten är den tid in i framtiden som du vill förutsäga. Avmarkera Identifiera automatiskt och skriv 14 i fältet.

  5. Välj Visa ytterligare konfigurationsinställningar och fyll i fälten enligt följande. De här inställningarna är till för att bättre kontrollera träningsjobbet och ange inställningar för din prognos. Annars tillämpas standardvärden baserat på experimentval och data.

    Ytterligare konfigurationer beskrivning Värde för självstudie
    Primärt mått Utvärderingsmått som maskininlärningsalgoritmen ska mätas med. Normaliserat rot mean squared error
    Förklara bästa modell Visar automatiskt förklaring på den bästa modellen som skapats av automatiserad ML. Aktivera
    Blockerade algoritmer Algoritmer som du vill undanta från träningsjobbet Extrema slumpmässiga träd
    Ytterligare prognosinställningar De här inställningarna hjälper till att förbättra modellens noggrannhet.

    Prognosmålfördröjningar: hur långt tillbaka du vill konstruera fördröjningarna för målvariabeln
    Rullande målfönster: anger storleken på det rullande fönstret över vilka funktioner, till exempel max, min och summa, som genereras.


    Prognosmålfördröjningar: Ingen
    Målstorlek för rullande fönster: Ingen
    Avslutningsvillkor Om ett villkor uppfylls stoppas träningsjobbet. Utbildningstid (timmar): 3
    Tröskelvärde för måttpoäng: Ingen
    Samtidighet Det maximala antalet parallella iterationer som körs per iteration Maximalt antal samtidiga iterationer: 6

    Välj Spara.

  6. Välj Nästa.

  7. I formuläret [Valfritt] Verifiera och testa ,

    1. Välj k-fold korsvalidering som valideringstyp.
    2. Välj 5 som antal korsvalideringar.

Köra experiment

Om du vill köra experimentet väljer du Slutför. Skärmen Jobbinformation öppnas med jobbstatusen längst upp bredvid jobbnumret. Den här statusen uppdateras när experimentet fortskrider. Meddelanden visas också i det övre högra hörnet i studion för att informera dig om statusen för experimentet.

Viktigt!

Det tar 10–15 minuter att förbereda experimentjobbet. När du har kört tar det 2–3 minuter till för varje iteration.

I produktion skulle du förmodligen gå iväg en stund eftersom den här processen tar tid. Medan du väntar föreslår vi att du börjar utforska de testade algoritmerna på fliken Modeller när de har slutförts.

Utforska modeller

Gå till fliken Modeller för att se vilka algoritmer (modeller) som testats. Som standard sorteras modellerna efter måttpoäng när de slutförs. I den här självstudien finns den modell som får högst poäng baserat på det valda normaliserade rotvärdet för kvadratfel överst i listan.

Medan du väntar på att alla experimentmodeller ska slutföras väljer du algoritmnamnet för en slutförd modell för att utforska dess prestandainformation.

I följande exempel navigerar du till att välja en modell i listan över modeller som jobbet skapade. Sedan väljer du flikarna Översikt och Mått för att visa den valda modellens egenskaper, mått och prestandadiagram.

Run Overview

Distribuera modellen

Med automatiserad maskininlärning i Azure Machine Learning-studio kan du distribuera den bästa modellen som en webbtjänst i några få steg. Distribution är integreringen av modellen så att den kan förutsäga nya data och identifiera potentiella affärsmöjligheter.

För det här experimentet innebär distributionen till en webbtjänst att cykelresursföretaget nu har en iterativ och skalbar webblösning för prognostisering av efterfrågan på cykeldelningsuthyrning.

När jobbet är klart går du tillbaka till den överordnade jobbsidan genom att välja Jobb 1 överst på skärmen.

I avsnittet Best model summary (Bästa modellsammanfattning) väljs den bästa modellen i kontexten för det här experimentet baserat på måttet Normalized root mean squared error metric (Normalized root mean squared error metric).

Vi distribuerar den här modellen, men se till att distributionen tar cirka 20 minuter att slutföra. Distributionsprocessen innebär flera steg, inklusive registrering av modellen, generering av resurser och konfiguration av dem för webbtjänsten.

  1. Välj den bästa modellen för att öppna den modellspecifika sidan.

  2. Välj knappen Distribuera längst upp till vänster på skärmen.

  3. Fyll i fönstret Distribuera en modell på följande sätt:

    Fält Värde
    Distributionsnamnet bikeshare-deploy
    Distributionsbeskrivning distribution av efterfrågan på cykelresurser
    Typ av beräkning Välj Azure Compute Instance (ACI)
    Aktivera autentisering Inaktivera.
    Använda anpassade distributionstillgångar Inaktivera. Om du inaktiverar kan standarddrivrutinsfilen (bedömningsskriptet) och miljöfilen genereras automatiskt.

    I det här exemplet använder vi standardvärdena i menyn Avancerat .

  4. Välj distribuera.

    Ett grönt meddelande visas överst på skärmen Jobb som anger att distributionen har startats. Distributionens förlopp finns i fönstret Modellsammanfattning under Distribuera status.

När distributionen är klar har du en fungerande webbtjänst som genererar förutsägelser.

Gå vidare till Nästa steg för att lära dig mer om hur du använder din nya webbtjänst och testa dina förutsägelser med hjälp av Power BI:s inbyggda Stöd för Azure Machine Learning.

Rensa resurser

Distributionsfiler är större än data- och experimentfiler, så de kostar mer att lagra. Ta bara bort distributionsfilerna för att minimera kostnaderna för ditt konto, eller om du vill behålla arbetsytan och experimentfilerna. Annars tar du bort hela resursgruppen om du inte planerar att använda någon av filerna.

Ta bort distributionsinstansen

Ta bara bort distributionsinstansen från Azure Machine Learning-studio om du vill behålla resursgruppen och arbetsytan för andra självstudier och utforskning.

  1. Gå till Azure Machine Learning-studio. Gå till din arbetsyta och välj Slutpunkter till vänster under fönstret Tillgångar.

  2. Välj den distribution som du vill ta bort och välj Ta bort.

  3. Välj Fortsätt.

Ta bort resursgruppen

Viktigt!

De resurser som du har skapat kan användas som förutsättningar för andra Azure Machine Learning-självstudier och instruktionsartiklar.

Om du inte planerar att använda någon av de resurser som du har skapat tar du bort dem så att du inte debiteras några avgifter:

  1. I Azure-portalen väljer du Resursgrupper längst till vänster.

  2. I listan väljer du den resursgrupp som du skapade.

  3. Välj Ta bort resursgrupp.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. Ange resursgruppsnamnet. Välj sedan ta bort.

Nästa steg

I den här självstudien använde du automatiserad ML i Azure Machine Learning-studio för att skapa och distribuera en prognosmodell för tidsserier som förutsäger efterfrågan på cykeldelningsuthyrning.

I den här artikeln finns anvisningar om hur du skapar ett Power BI-schema som stöds för att underlätta förbrukningen av din nyligen distribuerade webbtjänst:

Kommentar

Den här cykelresursdatauppsättningen har ändrats för den här självstudien. Den här datamängden gjordes tillgänglig som en del av en Kaggle-tävling och var ursprungligen tillgänglig via Capital Bikeshare. Den finns också i UCI Machine Learning Database.

Källa: Fanaee-T, Hadi och Gama, Joao, Event labeling som kombinerar ensembledetektorer och bakgrundskunskap, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg.