Konfigurera AutoML-träning utan kod för tabelldata med studiogränssnittet

I den här artikeln får du lära dig hur du konfigurerar AutoML-träningsjobb utan en enda kodrad med hjälp av automatiserad ML i Azure Machine Learning i Azure Machine Learning-studio.

Automatisk maskininlärning, AutoML, är en process där den bästa maskininlärningsalgoritmen som ska användas för dina specifika data väljs åt dig. Med den här processen kan du snabbt generera maskininlärningsmodeller. Läs mer om hur Azure Machine Learning implementerar automatiserad maskininlärning.

I ett exempel från slutpunkt till slutpunkt kan du prova klassificeringsmodellerna Självstudie: AutoML – träna utan kod.

För en Python-kodbaserad upplevelse konfigurerar du dina automatiserade maskininlärningsexperiment med Azure Machine Learning SDK.

Förutsättningar

Kom igång

  1. Logga in på Azure Machine Learning-studio.

  2. Välj din prenumeration och arbetsyta.

  3. Navigera till det vänstra fönstret. Välj Automatiserad ML under avsnittet Redigering .

Azure Machine Learning studio navigation pane

Om det här är första gången du utför experiment visas en tom lista och länkar till dokumentationen.

Annars visas en lista över dina senaste automatiserade ML-experiment, inklusive de som skapats med SDK:t.

Skapa och köra experiment

  1. Välj + Nytt automatiserat ML-jobb och fyll i formuläret.

  2. Välj en datatillgång från lagringscontainern eller skapa en ny datatillgång. Datatillgång kan skapas från lokala filer, webb-URL:er, datalager eller azure-öppna datauppsättningar. Läs mer om att skapa datatillgång.

    Viktigt!

    Krav på träningsdata:

    • Data måste vara i tabellform.
    • Det värde som du vill förutsäga (målkolumnen) måste finnas i data.
    1. Om du vill skapa en ny datauppsättning från en fil på den lokala datorn väljer du +Skapa datauppsättning och väljer sedan Från lokal fil.

    2. Välj Nästa för att öppna formuläret För datalager och filval. väljer du var datauppsättningen ska laddas upp. standardlagringscontainern som skapas automatiskt med din arbetsyta eller väljer en lagringscontainer som du vill använda för experimentet.

      1. Om dina data finns bakom ett virtuellt nätverk måste du aktivera hoppa över valideringsfunktionen för att säkerställa att arbetsytan kan komma åt dina data. Mer information finns i Använda Azure Machine Learning-studio i ett virtuellt Azure-nätverk.
    3. Välj Bläddra för att ladda upp datafilen för datauppsättningen.

    4. Granska Inställningar- och förhandsversionsformuläret för noggrannhet. Formuläret fylls i intelligent baserat på filtypen.

      Fält beskrivning
      File format Definierar layouten och typen av data som lagras i en fil.
      Delimiter Ett eller flera tecken för att ange gränsen mellan separata, oberoende regioner i oformaterad text eller andra dataströmmar.
      Encoding Identifierar vilken bit till teckenschematabell som ska användas för att läsa datauppsättningen.
      Kolumnrubriker Anger hur sidhuvudena i datauppsättningen, om några, kommer att behandlas.
      Hoppa över rader Anger hur många, om några, rader som hoppas över i datauppsättningen.

      Välj Nästa.

    5. Schemaformuläret fylls i intelligent baserat på valen i formuläret Inställningar och förhandsversion. Här konfigurerar du datatypen för varje kolumn, granskar kolumnnamnen och väljer vilka kolumner som inte ska inkluderas för experimentet.

      Välj Nästa.

    6. Formuläret Bekräfta information är en sammanfattning av informationen som tidigare fyllts i i formulären Grundläggande information och Inställningar och förhandsversion. Du har också möjlighet att skapa en dataprofil för din datauppsättning med hjälp av en profileringsaktiverad beräkning.

      Välj Nästa.

  3. Välj den nyligen skapade datauppsättningen när den visas. Du kan också visa en förhandsversion av datamängden och exempelstatistiken.

  4. I formuläret Konfigurera jobb väljer du Skapa ny och anger Tutorial-automl-deploy som experimentnamn.

  5. Välj en målkolumn. Det här är den kolumn som du vill göra förutsägelser om.

  6. Välj en beräkningstyp för dataprofilerings- och träningsjobbet. Du kan välja ett beräkningskluster eller en beräkningsinstans.

  7. Välj en beräkning i listrutan för dina befintliga beräkningar. Följ anvisningarna i steg 8 för att skapa en ny beräkning.

  8. Välj Skapa en ny beräkning för att konfigurera beräkningskontexten för det här experimentet.

    Fält beskrivning
    Namn på beräkning Ange ett unikt namn som identifierar beräkningskontexten.
    Prioritet för virtuell dator Virtuella datorer med låg prioritet är billigare men garanterar inte beräkningsnoderna.
    Typ av virtuell dator Välj CPU eller GPU för typ av virtuell dator.
    Storlek för virtuell dator Välj storleken på den virtuella datorn för din beräkning.
    Min/Max-noder Om du vill profilera data måste du ange en eller flera noder. Ange det maximala antalet noder för din beräkning. Standardvärdet är sex noder för en Azure Machine Learning Compute.
    Avancerade inställningar Med de här inställningarna kan du konfigurera ett användarkonto och ett befintligt virtuellt nätverk för experimentet.

    Välj Skapa. Det kan ta några minuter att skapa en ny beräkning.

    Välj Nästa.

  9. I formuläret Aktivitetstyp och inställningar väljer du uppgiftstyp: klassificering, regression eller prognostisering. Mer information finns i aktivitetstyper som stöds.

    1. För klassificering kan du också aktivera djupinlärning.

    2. För prognostisering kan du

      1. Aktivera djupinlärning.

      2. Välj tidskolumn: Den här kolumnen innehåller tidsdata som ska användas.

      3. Välj prognoshorisont: Ange hur många tidsenheter (minuter/timmar/dagar/veckor/månader/år) som modellen kommer att kunna förutsäga för framtiden. Desto längre in i framtiden krävs modellen för att förutsäga, desto mindre exakt blir modellen. Läs mer om prognostisering och prognoshorisont.

  10. (Valfritt) Visa inställningar för tilläggskonfiguration: ytterligare inställningar som du kan använda för att bättre kontrollera träningsjobbet. Annars tillämpas standardvärden baserat på experimentval och data.

    Ytterligare konfigurationer beskrivning
    Primärt mått Huvudmått som används för att bedöma din modell. Läs mer om modellmått.
    Aktivera ensemblestapling Ensembleinlärning förbättrar maskininlärningsresultat och förutsägande prestanda genom att kombinera flera modeller i stället för att använda enkla modeller. Läs mer om ensemblemodeller.
    Blockerade modeller Välj modeller som du vill undanta från träningsjobbet.

    Att tillåta modeller är endast tillgängligt för SDK-experiment.
    Se de algoritmer som stöds för varje aktivitetstyp.
    Förklara bästa modell Visar automatiskt förklaring på den bästa modellen som skapats av automatiserad ML.
    Positiv klassetikett Etikett som automatiserad ML använder för att beräkna binära mått.
  11. (Valfritt) Visa funktionaliseringsinställningar: Om du väljer att aktivera automatisk funktionalisering i formuläret Ytterligare konfigurationsinställningar tillämpas standardtekniker för funktionalisering. I inställningarna visa funktionalisering kan du ändra dessa standardvärden och anpassa därefter. Lär dig hur du anpassar funktionaliseringar.

    Screenshot shows the Select task type dialog box with View featurization settings called out.

  12. Med formuläret [Valfria] gränser kan du göra följande.

    Alternativ Description
    Maximalt antal utvärderingsversioner Maximalt antal utvärderingsversioner, var och en med olika kombination av algoritmer och hyperparametrar att prova under AutoML-jobbet. Måste vara ett heltal mellan 1 och 1000.
    Maximalt antal samtidiga utvärderingar Maximalt antal utvärderingsjobb som kan köras parallellt. Måste vara ett heltal mellan 1 och 1000.
    Maximalt antal noder Maximalt antal noder som det här jobbet kan använda från det valda beräkningsmålet.
    Tröskelvärde för måttpoäng När det här tröskelvärdet nås för ett iterationsmått avslutas träningsjobbet. Tänk på att meningsfulla modeller har korrelation > 0, annars är de lika bra som att gissa att det genomsnittliga tröskelvärdet för mått ska ligga mellan gränserna [0, 10].
    Tidsgräns för experiment (minuter) Maximal tid i minuter som hela experimentet tillåts köras. När den här gränsen har nåtts avbryter systemet AutoML-jobbet, inklusive alla dess utvärderingsversioner (underordnade jobb).
    Timeout för iteration (minuter) Maximal tid i minuter som varje utvärderingsjobb tillåts köras. När den här gränsen har nåtts avbryter systemet utvärderingsversionen.
    Aktivera tidig avslutning Välj för att avsluta jobbet om poängen inte förbättras på kort sikt.
  13. Med formuläret [Valfritt] Verifiera och testa kan du göra följande.

a. Ange vilken typ av validering som ska användas för ditt träningsjobb. Om du inte uttryckligen anger antingen en validation_data parameter eller n_cross_validations parameter tillämpar automatiserad ML standardtekniker beroende på antalet rader som anges i den enskilda datamängden training_data.

Träningsdatastorlek Valideringsteknik
Större än 20 000 rader Delning av tränings-/valideringsdata tillämpas. Standardvärdet är att ta 10 % av den inledande träningsdatauppsättningen som verifieringsuppsättning. Verifieringsuppsättningen används i sin tur för måttberäkning.
Mindre än 20 000& rader Metoden för korsvalidering tillämpas. Standardantalet vikningar beror på antalet rader.
Om datamängden är mindre än 1 000 rader används 10 vikter.
Om raderna är mellan 1 000 och 20 000 används tre veck.

b. Ange en testdatauppsättning (förhandsversion) för att utvärdera den rekommenderade modellen som automatiserad ML genererar åt dig i slutet av experimentet. När du anger testdata utlöses ett testjobb automatiskt i slutet av experimentet. Det här testjobbet är bara jobb på den bästa modellen som rekommenderas av automatiserad ML. Lär dig hur du hämtar resultatet av fjärrtestjobbet.

Viktigt!

Att tillhandahålla en testdatauppsättning för att utvärdera genererade modeller är en förhandsversionsfunktion. Den här funktionen är en experimentell förhandsversionsfunktion och kan ändras när som helst. * Testdata anses vara separata från träning och validering, för att inte påverka resultatet av testjobbet för den rekommenderade modellen. Läs mer om bias under modellvalidering. * Du kan antingen ange en egen testdatauppsättning eller välja att använda en procentandel av din träningsdatauppsättning. Testdata måste vara i form av en Azure Machine Learning TabularDataset.
* Schemat för testdatauppsättningen ska matcha träningsdatauppsättningen. Målkolumnen är valfri, men om ingen målkolumn anges beräknas inga testmått. * Testdatauppsättningen får inte vara samma som träningsdatauppsättningen eller valideringsdatauppsättningen. * Prognostiseringsjobb stöder inte tränings-/testdelning.

Screenshot shows the form where to select validation data and test data

Anpassa funktionalisering

I formuläret Featurization kan du aktivera/inaktivera automatisk funktionalisering och anpassa inställningarna för automatisk funktionalisering för experimentet. Information om hur du öppnar det här formuläret finns i steg 10 i avsnittet Skapa och kör experiment .

I följande tabell sammanfattas de anpassningar som för närvarande är tillgängliga via studion.

Column Anpassning
Funktionstyp Ändra värdetypen för den valda kolumnen.
Impute med Välj vilket värde du vill imputera saknade värden med i dina data.

Screenshot showing Azure Machine Learning studio custom featurization.

Köra experiment och visa resultat

Välj Slutför för att köra experimentet. Experimentförberedelserna kan ta upp till 10 minuter. För träningsjobb kan det ta ytterligare 2–3 minuter för varje pipeline att slutföra körningen. Om du har angett att generera RAI-instrumentpanelen för den bästa rekommenderade modellen kan det ta upp till 40 minuter.

Kommentar

De algoritmer som automatiserad ML använder har inbyggd slumpmässighet som kan orsaka liten variation i en rekommenderad modells slutliga måttpoäng, till exempel noggrannhet. Automatiserad ML utför också åtgärder på data, till exempel delning av träningstest, delning av tågvalidering eller korsvalidering vid behov. Så om du kör ett experiment med samma konfigurationsinställningar och primärt mått flera gånger ser du förmodligen variation i varje experiments slutliga måttpoäng på grund av dessa faktorer.

Visa experimentinformation

Skärmen Jobbinformation öppnas på fliken Information . Den här skärmen visar en sammanfattning av experimentjobbet, inklusive ett statusfält högst upp bredvid jobbnumret.

Fliken Modeller innehåller en lista över de modeller som skapats ordnade efter måttpoängen. Som standard visas modellen med högst poäng utifrån det valda måttet överst i listan. När träningsjobbet testar fler modeller läggs de till i listan. Använd det här för att få en snabb jämförelse av måtten för de modeller som har producerats hittills.

Visa information om träningsjobb

Öka detaljnivån för någon av de slutförda modellerna för att se information om träningsjobb.

Du kan se modellspecifika prestandamåttdiagram på fliken Mått . Läs mer om diagram.

Det är också här du hittar information om alla egenskaper för modellen tillsammans med associerad kod, underordnade jobb och bilder.

Visa resultat från fjärrtestjobb (förhandsversion)

Om du har angett en testdatauppsättning eller valt en tränings-/testdelning under experimentkonfigurationen – på formuläret Verifiera och testa testar automatiserad ML automatiskt den rekommenderade modellen som standard. Därför beräknar automatiserad ML testmått för att fastställa kvaliteten på den rekommenderade modellen och dess förutsägelser.

Viktigt!

Att testa dina modeller med en testdatauppsättning för att utvärdera genererade modeller är en förhandsversionsfunktion. Den här funktionen är en experimentell förhandsversionsfunktion och kan ändras när som helst.

Om du vill visa testjobbsmåtten för den rekommenderade modellen,

  1. Gå till sidan Modeller och välj den bästa modellen.
  2. Välj fliken Testresultat (förhandsversion).
  3. Välj önskat jobb och visa fliken Mått . Test results tab of automatically tested, recommended model

Om du vill visa testförutsägelserna som används för att beräkna testmåtten

  1. Gå till slutet av sidan och välj länken under Datauppsättningen Utdata för att öppna datauppsättningen.
  2. På sidan Datauppsättningar väljer du fliken Utforska för att visa förutsägelserna från testjobbet.
    1. Alternativt kan förutsägelsefilen också visas/laddas ned från fliken Utdata + loggar , expandera mappen Förutsägelser för att hitta predicted.csv filen.

Alternativt kan förutsägelsefilen också visas/laddas ned från fliken Utdata + loggar, expandera mappen Förutsägelser för att hitta din predictions.csv fil.

Modelltestjobbet genererar den predictions.csv fil som lagras i standarddataarkivet som skapats med arbetsytan. Det här dataarkivet är synligt för alla användare med samma prenumeration. Testjobb rekommenderas inte för scenarier om någon av informationen som används för eller skapas av testjobbet måste förbli privat.

Testa en befintlig automatiserad ML-modell (förhandsversion)

Viktigt!

Att testa dina modeller med en testdatauppsättning för att utvärdera genererade modeller är en förhandsversionsfunktion. Den här funktionen är en experimentell förhandsversionsfunktion och kan ändras när som helst.

När experimentet är klart kan du testa de modeller som automatiserad ML genererar åt dig. Om du vill testa en annan automatiserad ML-genererad modell, inte den rekommenderade modellen, kan du göra det med följande steg.

  1. Välj ett befintligt automatiserat ML-experimentjobb.

  2. Gå till fliken Modeller för jobbet och välj den färdiga modell som du vill testa.

  3. På sidan Modellinformationväljer du knappen Testmodell (förhandsversion) för att öppna fönstret Testmodell.

  4. I fönstret Testmodell väljer du beräkningsklustret och en testdatauppsättning som du vill använda för testjobbet.

  5. Klicka på knappen Test. Schemat för testdatauppsättningen ska matcha träningsdatauppsättningen, men målkolumnen är valfri.

  6. När modelltestjobbet har skapats visas ett meddelande på sidan Information . Välj fliken Testresultat för att se förloppet för jobbet.

  7. Om du vill visa resultatet av testjobbet öppnar du sidan Information och följer stegen i avsnittet Visa resultat för fjärrtestjobbet .

    Test model form

Instrumentpanel för ansvarsfull AI (förhandsversion)

För att bättre förstå din modell kan du se olika insikter om din modell med instrumentpanelen Ansvarsfull Ai. Det gör att du kan utvärdera och felsöka din bästa automatiserade maskininlärningsmodell. Instrumentpanelen ansvarsfull AI utvärderar modellfel och rättviseproblem, diagnostiserar varför dessa fel inträffar genom att utvärdera dina tränings- och/eller testdata och observera modellförklaringar. Tillsammans kan dessa insikter hjälpa dig att skapa förtroende med din modell och klara granskningsprocesserna. Ansvarsfulla AI-instrumentpaneler kan inte genereras för en befintlig automatiserad maskininlärningsmodell. Den skapas bara för den bästa rekommenderade modellen när ett nytt AutoML-jobb skapas. Användarna bör fortsätta att bara använda modellförklaringar (förhandsversion) tills stöd ges för befintliga modeller.

Om du vill generera en ansvarsfull AI-instrumentpanel för en viss modell

  1. När du skickar ett automatiserat ML-jobb fortsätter du till avsnittet Aktivitetsinställningar i det vänstra navigeringsfältet och väljer alternativet Visa ytterligare konfigurationsinställningar .

  2. Markera kryssrutan Förklara bästa modell i det nya formulär som visas efter det valet.

    Screenshot showing the Automated ML job configuration page with Explain best model selected.

  3. Fortsätt till sidan Beräkning i konfigurationsformuläret och välj alternativet Serverlös för din beräkning.

    Serverless compute selection

  4. När du är klar går du till sidan Modeller för ditt automatiserade ML-jobb, som innehåller en lista över dina tränade modeller. Välj på länken Visa ansvarsfull AI-instrumentpanel :

    View dashboard page within an Automated ML job

Instrumentpanelen Ansvarsfull AI visas för den modellen enligt den här bilden:

Responsible AI dashboard

På instrumentpanelen hittar du fyra komponenter som är aktiverade för din automatiserade ML:s bästa modell:

Komponent Vad visar komponenten? Hur läser jag diagrammet?
Felanalys Använd felanalys när du behöver:
Få en djup förståelse för hur modellfel distribueras över en datauppsättning och över flera indata- och funktionsdimensioner.
Dela upp de aggregerade prestandamåtten för att automatiskt identifiera felaktiga kohorter för att informera dina riktade åtgärdssteg.
Felanalysdiagram
Modellöversikt och rättvisa Använd den här komponenten för att:
Få en djup förståelse för modellens prestanda i olika kohorter av data.
Förstå dina problem med modellens rättvisa genom att titta på olika mått. Dessa mått kan utvärdera och jämföra modellbeteende mellan undergrupper som identifieras i termer av känsliga (eller meningslösa) funktioner.
Modellöversikt och rättvisediagram
Modellförklaringar Använd modellförklaringskomponenten för att generera begripliga beskrivningar av förutsägelserna för en maskininlärningsmodell genom att titta på:
Globala förklaringar: Vilka funktioner påverkar till exempel det övergripande beteendet för en låneallokeringsmodell?
Lokala förklaringar: Varför godkändes eller avvisades till exempel en kunds låneansökan?
Modellförklaringsdiagram
Dataanalys Använd dataanalys när du behöver:
Utforska datamängdsstatistiken genom att välja olika filter för att dela upp dina data i olika dimensioner (kallas även kohorter).
Förstå fördelningen av datamängden mellan olika kohorter och funktionsgrupper.
Ta reda på om dina resultat som rör rättvisa, felanalys och orsakssamband (härledda från andra instrumentpanelskomponenter) är ett resultat av datauppsättningens distribution.
Bestäm inom vilka områden du vill samla in mer data för att minimera fel som uppstår vid representationsproblem, etikettbrus, funktionsbrus, etikettfördomar och liknande faktorer.
Datautforskaren-diagram
  1. Du kan ytterligare skapa kohorter (undergrupper med datapunkter som delar angivna egenskaper) för att fokusera din analys av varje komponent på olika kohorter. Namnet på den kohort som för närvarande tillämpas på instrumentpanelen visas alltid längst upp till vänster på instrumentpanelen. Standardvyn på instrumentpanelen är hela datauppsättningen med titeln "Alla data" (som standard). Läs mer om den globala kontrollen över instrumentpanelen här.

Redigera och skicka jobb (förhandsversion)

Viktigt!

Möjligheten att kopiera, redigera och skicka ett nytt experiment baserat på ett befintligt experiment är en förhandsversionsfunktion. Den här funktionen är en experimentell förhandsversionsfunktion och kan ändras när som helst.

I scenarier där du vill skapa ett nytt experiment baserat på inställningarna för ett befintligt experiment ger automatiserad ML möjlighet att göra det med knappen Redigera och skicka i studiogränssnittet.

Den här funktionen är begränsad till experiment som initierats från studiogränssnittet och kräver dataschemat för det nya experimentet för att matcha det ursprungliga experimentets.

Knappen Redigera och skicka öppnar guiden Skapa ett nytt automatiserat ML-jobb med de förifyllda inställningarna för data, beräkning och experiment. Du kan gå igenom varje formulär och redigera val efter behov för ditt nya experiment.

Distribuera din modell

När du har den bästa modellen till hands är det dags att distribuera den som en webbtjänst för att förutsäga nya data.

Dricks

Om du vill distribuera en modell som genererades via automl paketet med Python SDK måste du registrera din modell) på arbetsytan.

När du är modell kan du hitta den i studion genom att välja Modeller i den vänstra rutan. När du har öppnat din modell kan du välja knappen Distribuera överst på skärmen och sedan följa anvisningarna enligt beskrivningen i steg 2 i avsnittet Distribuera din modell.

Automatiserad ML hjälper dig att distribuera modellen utan att skriva kod:

  1. Du har ett par alternativ för distribution.

    • Alternativ 1: Distribuera den bästa modellen enligt de måttkriterier som du definierade.

      1. När experimentet är klart navigerar du till den överordnade jobbsidan genom att välja Jobb 1 överst på skärmen.
      2. Välj den modell som visas i avsnittet Bästa modellsammanfattning .
      3. Välj Distribuera längst upp till vänster i fönstret.
    • Alternativ 2: Distribuera en specifik modell-iteration från det här experimentet.

      1. Välj den önskade modellen på fliken Modeller
      2. Välj Distribuera längst upp till vänster i fönstret.
  2. Fyll i fönstret Distribuera modell .

    Fält Värde
    Name Ange ett unikt namn för distributionen.
    beskrivning Ange en beskrivning för att bättre identifiera vad distributionen är till för.
    Typ av beräkning Välj den typ av slutpunkt som du vill distribuera: Azure Kubernetes Service (AKS) eller Azure Container Instance (ACI).
    Namn på beräkning Gäller endast för AKS: Välj namnet på det AKS-kluster som du vill distribuera till.
    Aktivera autentisering Välj för att tillåta tokenbaserad eller nyckelbaserad autentisering.
    Använda anpassade distributionstillgångar Aktivera den här funktionen om du vill ladda upp ett eget bedömningsskript och en egen miljöfil. Annars tillhandahåller automatiserad ML dessa tillgångar åt dig som standard. Läs mer om bedömningsskript.

    Viktigt!

    Filnamn måste vara under 32 tecken och måste börja och sluta med alfanumeriska tecken. Får innehålla bindestreck, understreck, punkter och alfanumeriska tecken mellan. Blanksteg är inte tillåtna.

    På menyn Avancerat finns standardfunktioner för distribution som datainsamling och inställningar för resursutnyttjande. Om du vill åsidosätta dessa standardinställningar gör du det på den här menyn.

  3. Välj distribuera. Det kan ta ungefär 20 minuter att slutföra distributionen. När distributionen börjar visas fliken Modellsammanfattning. Distributionsförloppet visas i avsnittet Distributionsstatus.

Nu har du ett fungerande webbtjänst för att generera förutsägelser! Du kan testa förutsägelserna genom att fråga tjänsten via Power BI:s inbyggda Azure Machine Learning-stöd.

Nästa steg