Zelfstudie: Een classificatiemodel trainen met AutoML zonder code in de Azure Machine Learning-studio

Meer informatie over het trainen van een classificatiemodel met AutoML zonder code met behulp van geautomatiseerde ML van Azure Machine Learning in de Azure Machine Learning-studio. Dit classificatiemodel voorspelt of een klant een termijnrekening zal openen bij een financiële instelling.

Met geautomatiseerde ML kunt u tijdsintensieve taken automatiseren. Geautomatiseerde machine learning doorloopt of itereert snel allerlei combinaties van algoritmen en hyperparameters om het beste model te vinden op basis van uw maatstaaf voor succes.

In deze zelfstudie schrijft u geen code. U gebruikt de studio-interface om training uit te voeren. U leert hoe u de volgende taken uitvoert:

  • Een Azure Machine Learning-werkruimte maken.
  • Een experiment voor geautomatiseerde machine learning uitvoeren.
  • Details van het model verkennen.
  • Implementeer het aanbevolen model.

Probeer ook geautomatiseerde machine learning voor deze andere modeltypen:

Vereisten

  • Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis account aan.

  • Download het gegevensbestand bankmarketing_train.csv. De kolom y geeft aan of een klant een termijnrekening heeft geopend. Verderop in deze zelfstudie wordt deze geïdentificeerd als doelkolom voor voorspellingen.

Een werkruimte maken

Een Azure Machine Learning-werkruimte is een basisblok in de cloud dat u gebruikt voor het experimenteren, trainen en implementeren van machine learning-modellen. De klasse bindt uw Azure-abonnement en resourcegroep aan een eenvoudig te verbruiken object in de service.

Er zijn verschillende manieren om een werkruimte te maken. In deze zelfstudie maakt u een werkruimte via Azure Portal, een webconsole om uw Azure-resources te beheren.

  1. Meld u aan bij de Azure-portal met behulp van de referenties van uw Azure-abonnement.

  2. Selecteer in de linkerbovenhoek van de Azure Portal de drie balken en selecteer vervolgens + Een resource maken.

    Schermopname van + Een resource maken.

  3. Gebruik de zoekbalk om Azure Machine Learning te vinden.

  4. Selecteer Azure Machine Learning.

    Schermopname van zoekresultaten om Machine Learning te selecteren.

  5. Selecteer Maken in het deelvenster Machine Learning om te beginnen.

  6. Geef de volgende gegevens op om uw nieuwe werkruimte te configureren:

    Veld Beschrijving
    Werkruimtenaam Voer een unieke naam in die uw werkruimte aanduidt. In dit voorbeeld gebruiken we docs-ws. Namen moeten uniek zijn binnen de resourcegroep. Gebruik een naam die gemakkelijk te onthouden is en te onderscheiden is van door anderen gemaakte werkruimten.
    Abonnement Selecteer het Azure-abonnement dat u wilt gebruiken.
    Resourcegroep Gebruik een bestaande resourcegroep in uw abonnement of voer een naam in om een nieuwe resourcegroep te maken. Een resourcegroep bevat gerelateerde resources voor een Azure-oplossing. In dit voorbeeld gebruiken we docs-aml.
    Regio Selecteer de locatie die zich het dichtst bij uw gebruikers en de gegevensresources bevindt om uw werkruimte te maken.
    Storage-account Een opslagaccount wordt gebruikt als het standaardgegevensarchief voor de werkruimte. U kunt een nieuwe Azure Storage-resource maken of een bestaande resource in uw abonnement selecteren.
    Key Vault Een sleutelkluis wordt gebruikt voor het opslaan van geheimen en andere gevoelige informatie die nodig is voor de werkruimte. U kunt een nieuwe Azure Key Vault-resource maken of een bestaande resource in uw abonnement selecteren.
    Application Insights De werkruimte maakt gebruik van Azure-toepassing Insights om bewakingsgegevens over uw geïmplementeerde modellen op te slaan. U kunt een nieuwe Azure-toepassing Insights-resource maken of een bestaande resource in uw abonnement selecteren.
    Containerregister Een containerregister wordt gebruikt voor het registreren van docker-installatiekopieën die worden gebruikt in training en implementaties. U kunt ervoor kiezen om een resource te maken of een bestaande resource in uw abonnement te selecteren.
  7. Nadat u klaar bent met het configureren van de werkruimte, selecteert u Beoordelen en maken.

  8. Selecteer Maken om de werkruimte te maken.

    Waarschuwing

    Het kan enkele minuten duren om uw werkruimte in de cloud te maken.

    Wanneer het proces is voltooid, wordt er een bericht weergegeven dat de implementatie is geslaagd.

  9. Selecteer Ga naar resource om de nieuwe werkruimte te bekijken.

  10. Selecteer studio starten in de portalweergave van uw werkruimte om naar de Azure Machine Learning-studio te gaan.

Belangrijk

Noteer uw werkruimte en abonnement. U hebt deze nodig om ervoor te zorgen dat u uw experiment op de juiste plek maakt.

Aanmelden bij de studio

U voltooit de volgende stappen voor het instellen en uitvoeren van het experiment via de Azure Machine Learning-studio in https://ml.azure.com, een geconsolideerde webinterface met machine learning-hulpprogramma's voor het uitvoeren van data science-scenario's voor data science-professionals van alle vaardigheidsniveaus. De Studio wordt niet ondersteund in Internet Explorer-browsers.

  1. Meld u aan bij Azure Machine Learning Studio.

  2. Selecteer uw abonnement en de werkruimte die u hebt gecreëerd.

  3. Selecteer Aan de slag.

  4. Selecteer in het linkerdeelvenster Geautomatiseerde ML in de sectie Maken.

    Aangezien dit uw eerste experiment voor geautomatiseerde ML is, ziet u een lege lijst en koppelingen naar documentatie.

    Pagina Aan de slag

  5. Selecteer +Nieuwe geautomatiseerde ML-taak.

Gegevensset maken en laden

Voordat u uw experiment gaat configureren, uploadt u uw gegevensbestand naar uw werkruimte in de vorm van een Azure Machine Learning-gegevensset. Als u dit doet, kunt u ervoor zorgen dat uw gegevens op de juiste wijze zijn opgemaakt voor uw experiment.

  1. Maak een nieuwe gegevensset door Uit lokale bestanden te selecteren in de vervolgkeuzelijst +Gegevensset maken .

    1. Geef uw gegevensset een naam en een optionele beschrijving in het formulier Basisinformatie. De geautomatiseerde ML-interface ondersteunt momenteel enkel TabularDatasets. Het type gegevensset moet dus standaard op In tabelvorm staan.

    2. Selecteer Volgende in de linkerbenedenhoek

    3. Selecteer, in het formulier Gegevensarchief- en bestandsselectie het standaard gegevensarchief dat automatisch werd ingesteld bij het aanmaken van uw werkruimte, workspaceblobstore (Azure Blob Storage) . Hier uploadt u uw gegevensbestand om het beschikbaar te maken voor uw werkruimte.

    4. Selecteer Bestanden uploaden in de vervolgkeuzelijst Uploaden .

    5. Kies het bestand bankmarketing_train.csv op uw lokale computer. Dit is het bestand dat u hebt gedownload als vereiste.

    6. Selecteer Volgende linksonder om deze te uploaden naar de standaardcontainer die automatisch is ingesteld tijdens het maken van de werkruimte.

      Wanneer het uploaden is voltooid, worden het formulier Instellingen en voorbeeld vooraf ingevuld op basis van het bestandstype.

    7. Controleer of het formulier Instellingen en voorbeeld als volgt is ingevuld en selecteer Volgende.

      Veld Beschrijving Waarde voor zelfstudie
      Bestandsindeling Definieert de indeling en het type gegevens dat is opgeslagen in een bestand. Met scheidingstekens
      Scheidingsteken Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen. Komma
      Encoding Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen. UTF-8
      Kolomkoppen Geeft aan hoe eventuele koppen van de gegevensset worden behandeld. Alle bestanden hebben dezelfde koppen
      Rijen overslaan Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset. Geen
    8. Met het formulier Schema kunt u uw gegevens verder configureren voor dit experiment. In dit voorbeeld selecteert u de wisselknop voor de day_of_week om deze niet op te nemen. Selecteer Next. Schemaformulier

    9. Controleer in het formulier Details bevestigen of de informatie overeenkomt met wat eerder is ingevuld in de formulieren Basisinformatie, Gegevensarchief en bestandsselectie en Instellingen en voorbeeld .

    10. Selecteren Maken om uw gegevensset te voltooien.

    11. Selecteer uw gegevensset wanneer deze verschijnt in de lijst.

    12. Controleer het voorbeeld van gegevens om te controleren of u geen day_of_week selecteer vervolgens Sluiten.

    13. Selecteer Next.

Taak configureren

Nadat u uw gegevens hebt geladen en geconfigureerd, kunt u uw experiment instellen. Dit installatieprogramma bevat ontwerptaken voor het experiment, zoals, het selecteren van de grootte van uw rekenomgeving en het opgeven van de kolom die u wilt voorspellen.

  1. Selecteer het keuzerondje Nieuwe maken.

  2. Vul het formulier Taak configureren als volgt in:

    1. Voer de naam van het nieuwe experiment in: my-1st-automl-experiment

    2. Selecteer y als doelkolom, wat u wilt voorspellen. Deze kolom geeft aan of de klant een termijnrekening heeft geopend of niet.

    3. Selecteer rekencluster als uw rekentype.

    4. +Nieuw om uw rekendoel te configureren. Een rekendoel is een resource-omgeving, lokaal of in de cloud, die gebruikt wordt om uw trainingsscript uit te voeren of uw service-implementatie te hosten. Voor dit experiment gebruiken we berekening in de cloud.

      1. Vul het formulier Virtuele machine selecteren in om uw rekenproces in te stellen.

        Veld Beschrijving Waarde voor zelfstudie
        Locatie Uw regio van waaruit u de machine wilt uitvoeren VS - west 2
        Virtuele-machinelaag Selecteer de prioriteit die het experiment moet krijgen Toegewezen
        Type virtuele machine Selecteer het type van de virtuele machine voor uw berekening. CPU (Central Processing Unit, centrale verwerkingseenheid)
        Grootte van de virtuele machine Selecteer de grootte van de virtuele machine voor uw berekening. Er wordt een lijst met aanbevolen grootten geboden, op basis van uw gegevens en het type experiment. Standard_DS12_V2
      2. Selecteer Volgende om het formulier Instellingen configureren in te vullen.

        Veld Beschrijving Waarde voor zelfstudie
        Naam berekening Een unieke naam die de context van uw berekening identificeert. automl-compute
        Min / Max knooppunten U moet u één of meer knooppunten opgeven om gegevens te profileren. Min. knooppunten: 1
        Max. knooppunten: 6
        Seconden wachten voor omlaag schalen Niet-actieve tijd voordat het cluster automatisch omlaag wordt geschaald tot het minimale aantal knooppunten. 120 (standaardinstelling)
        Geavanceerde instellingen Instellingen voor het configureren en autoriseren van een virtueel netwerk voor uw experiment. Geen
      3. Selecteer Maken om uw rekendoel te maken.

        Dit duurt enkele minuten.

        Pagina Instellingen

      4. Wanneer dit is voltooid, selecteert u uw nieuwe rekendoel uit de vervolgkeuzelijst.

    5. Selecteer Next.

  3. Voltooi op het formulier Taak en instellingen selecteren de installatie voor uw geautomatiseerde ML-experiment door het type machine learning-taak en de configuratie-instellingen op te geven.

    1. Selecteer Classificatie als het machine learning-taaktype.

    2. Selecteer Aanvullende configuratie-instellingen weergeven en vul de velden als volgt in. Dankzij deze instellingen kunt u de trainingstaak beter controleren. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.

      Aanvullende configuraties Beschrijving Waarde voor zelfstudie
      Primaire metrische gegevens Evaluatiewaarde waarmee het machine learning-algoritme wordt gemeten. AUC_weighted
      Uitleg geven over het beste model Hiermee wordt automatisch uitleg gegeven over het beste model dat is gemaakt met geautomatiseerde ML. Inschakelen
      Geblokkeerde algoritmen Algoritmen die u niet wilt opnemen in de trainingstaak Geen
      Aanvullende classificatie-instellingen Deze instellingen helpen de nauwkeurigheid van het model te verbeteren Positief klasselabel: geen
      Criterium voor afsluiten Als er aan een criterium is voldaan, wordt de trainingstaak gestopt. Trainingstaaktijd (uren): 1
      Drempelwaarde voor metrische score: geen
      Gelijktijdigheid Het maximum aantal parallelle iteraties uitgevoerd per iteratie Maximum aantal gelijktijdige iteraties: 5

      Selecteer Opslaan.

    3. Selecteer Next.

  4. Op het formulier [Optioneel] Valideren en testen ,

    1. Selecteer kruisvalidatie met k-vouwen als validatietype.
    2. Selecteer 2 als het aantal kruisvalidaties.
  5. Selecteer Voltooien om het experiment uit te voeren. Het scherm Taakdetail wordt geopend met de taakstatus bovenaan wanneer de voorbereiding van het experiment wordt gestart. Deze status wordt bijgewerkt wanneer het experiment wordt uitgevoerd. Meldingen worden ook weergegeven in de rechterbovenhoek van de studio om u op de hoogte te stellen van de status van uw experiment.

Belangrijk

Het duurt 10-15 minuten om de experimentele uitvoerbewerking voor te bereiden. Zodra de uitvoering is gestart duurt het 2-3 minuten langer per iteratie.

Bij een productie zou u waarschijnlijk even weggaan. Maar voor deze zelfstudie raden we aan om onder het tabblad Modellen de geteste algoritmen te bekijken die voltooid zijn terwijl de andere nog worden uitgevoerd.

Modellen bekijken

Ga naar het tabblad Modellen om de geteste algoritmen (modellen) te bekijken. De modellen worden standaard gerangschikt op hun metrische score terwijl ze worden voltooid. Voor deze zelfstudie staat het model dat het hoogst scoort op basis van de gekozen metrische waarde AUC_weighted bovenaan de lijst.

Terwijl u wacht tot alle experimentmodellen voltooid zijn, kunt u de Algoritmenaam van een volledig model selecteren om de prestatiedetails te bekijken.

In het volgende gedeelte kunt u naar de tabbladen Details en Metrische gegevens gaan om de eigenschappen, metrische gegevens en prestatiegrafieken van het geselecteerde model te bekijken.

Details van uitvoeringsiteratie

Modeluitleg

Terwijl u wacht tot de modellen zijn voltooid, kunt u ook de modeluitleg bekijken en zien welke gegevensfuncties (onbewerkt of ontworpen) van invloed zijn op de voorspellingen van een bepaald model.

Deze modelverklaringen kunnen op aanvraag worden gegenereerd en worden samengevat in het dashboard modeluitleg dat deel uitmaakt van het tabblad Uitleg (preview).

Voor het genereren van modeluitleg:

  1. Selecteer Taak 1 bovenaan om terug te gaan naar het scherm Modellen .

  2. Selecteer het tabblad Modellen .

  3. Selecteer voor deze zelfstudie het eerste Model MaxAbsScaler, LightGBM .

  4. Selecteer bovenaan de knop Model uitleggen . Aan de rechterkant wordt het deelvenster Model uitleggen weergegeven.

  5. Selecteer de automl-compute die u eerder hebt gemaakt. Dit rekencluster initieert een onderliggende taak om de modeluitleg te genereren.

  6. Selecteer Maken onderaan. Er wordt een groen bericht weergegeven boven aan het scherm.

    Notitie

    Het duurt ongeveer 2-5 minuten om de taak uit te leggen.

  7. Selecteer de knop Uitleg (preview). Dit tabblad wordt ingevuld zodra de uitvoerbaarheid is voltooid.

  8. Vouw aan de linkerkant het deelvenster uit en selecteer de rij met de tekst onbewerkt onder Functies.

  9. Selecteer aan de rechterkant het tabblad Urgentie van functie samenvoegen . In deze grafiek ziet u welke gegevensfuncties de voorspellingen van het geselecteerde model hebben beïnvloed.

    In dit voorbeeld lijkt de duur de meeste invloed te hebben op de voorspellingen van dit model.

    Dashboard met modeluitleg

Het beste model implementeren

In de geautomatiseerde machine learning-interface kunt u met enkele stappen het beste model implementeren als webservice. Implementatie is de integratie van het model zodat het nieuwe gegevens kan voorspellen en potentiële kansgebieden kan identificeren.

Voor dit experiment betekent de implementatie naar een webservice dat de financiële instelling nu een iteratieve en schaalbare weboplossing heeft om potentiële klanten voor termijnrekeningen te identificeren.

Controleer of de uitvoering van uw experimentele uitvoerbewerking is voltooid. Ga hiervoor terug naar de bovenliggende taakpagina door taak 1 boven aan het scherm te selecteren. In de linkerbovenhoek van het scherm wordt de status Voltooid weergegeven.

Zodra de uitvoering van het experiment is voltooid, wordt op de pagina Details een sectie met Beste modeloverzicht ingevuld. In de context van dit experiment is VotingEnsemble het beste model op basis van de metrische waarde AUC_weighted.

We implementeren dit model, maar houd er rekening mee dat implementatie ongeveer 20 minuten duurt. Het implementatieproces omvat verschillende stappen, waaronder het model registreren, resources genereren en ze configureren voor de webservice.

  1. Selecteer VotingEnsemble om de model-specifieke pagina te openen.

  2. Selecteer het menu Implementeren in de linkerbovenhoek en selecteer Implementeren in webservice.

  3. Vul het deelvenster Een model implementeren als volgt in:

    Veld Waarde
    Naam van implementatie my-automl-deploy
    Beschrijving van implementatie Implementatie van mijn eerste geautomatiseerde machine learning-experiment
    Rekentype Selecteer Azure Container Instance (ACI)
    Verificatie inschakelen Uitgeschakeld.
    Aangepaste implementaties gebruiken Uitgeschakeld. Hiermee kunt u het standaardstuurprogrammabestand (scorescript) en het omgevingsbestand automatisch genereren.

    In dit voorbeeld gebruiken we de standaardwaarden in het menu Geavanceerd.

  4. Selecteer Implementeren.

    Er wordt een groen bericht weergegeven boven aan het scherm Taak en in het deelvenster Modeloverzicht wordt een statusbericht weergegeven onder Implementatiestatus. Selecteer regelmatig Vernieuwen om de implementatiestatus te controleren.

U hebt nu een operationele webservice om voorspellingen te genereren.

Ga verder met de Volgende stappen voor meer informatie over het gebruik van uw nieuwe webservice en test uw voorspellingen met de ingebouwde ondersteuning voor Azure Machine Learning van Power BI.

Resources opschonen

Implementatiebestanden zijn groter dan gegevens- en experimentbestanden. Daarom kost het meer om ze op te slaan. Verwijder alleen de implementatiebestanden om de kosten voor uw account te beperken, of als u uw werkruimte en experimentbestanden wilt behouden. Zo niet, verwijder dan de volledige resourcegroep als u geen enkel bestand wilt gebruiken.

Het implementatie-exemplaar verwijderen

Verwijder alleen het implementatie-exemplaar uit Azure Machine Learning op https://ml.azure.com/als u de resourcegroep en werkruimte wilt behouden voor andere zelfstudies en verkenning.

  1. Ga naar Azure Machine Learning. Navigeer naar uw werkruimte en selecteer aan de linkerkant onder het deelvenster Assetsde optie Eindpunten.

  2. Selecteer de implementatie die u wilt verwijderen en vervolgens Verwijderen.

  3. Selecteer Doorgaan.

De resourcegroep verwijderen

Belangrijk

De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.

Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:

  1. Selecteer Resourcegroepen links in Azure Portal.

  2. Selecteer de resourcegroep die u hebt gemaakt uit de lijst.

  3. Selecteer Resourcegroep verwijderen.

    Schermopname van de selecties voor het verwijderen van een resourcegroep in de Azure-portal.

  4. Voer de naam van de resourcegroup in. Selecteer vervolgens Verwijderen.

Volgende stappen

In deze zelfstudie over geautomatiseerde machine learning heeft u de geautomatiseerde ML-interface van Azure Machine Learning gebruikt om een classificatiemodel te maken en implementeren. Raadpleeg de volgende artikelen voor meer informatie en de volgende stappen:

Notitie

Deze gegevensset voor marketing van een bank is beschikbaar onder de Creative Commons-licentie CCO: Public Domain). Alle rechten voor individuele inhoudselementen van de database zijn gelicentieerd onder de Database Contents License en zijn beschikbaar op Kaggle. Deze gegevensset was oorspronkelijk beschikbaar binnen de UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez en P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, juni 2014.