Zelfstudie: Een classificatiemodel trainen zonder code AutoML in de Azure Machine Learning-studio

Artikel
10/16/2024

Meer informatie over het trainen van een classificatiemodel met autoML zonder code met behulp van geautomatiseerde ML van Azure Machine Learning in de Azure Machine Learning-studio. Dit classificatiemodel voorspelt of een klant een termijnrekening zal openen bij een financiële instelling.

Met geautomatiseerde ML kunt u tijdsintensieve taken automatiseren. Geautomatiseerde machine learning doorloopt of itereert snel allerlei combinaties van algoritmen en hyperparameters om het beste model te vinden op basis van uw maatstaaf voor succes.

In deze zelfstudie schrijft u geen code. U gebruikt de studio-interface om training uit te voeren. U leert hoe u de volgende taken uitvoert:

Een Azure Machine Learning-werkruimte maken
Een geautomatiseerd machine learning-experiment uitvoeren.
Verken modeldetails.
Implementeer het aanbevolen model.

Probeer ook geautomatiseerde machine learning voor deze andere modeltypen:

Zie Zelfstudie: Vraagprognose en AutoML voor een voorbeeld zonder code van prognose.
Zie de zelfstudie: Een objectdetectiemodel trainen met AutoML en Python voor een codevoorbeeld van een objectdetectiemodel.

Vereisten

Een Azure-abonnement. Als u nog geen Azure-abonnement hebt, maakt u een gratis account.
Download het gegevensbestand bankmarketing_train.csv. De kolom y geeft aan of een klant een termijnrekening heeft geopend. Verderop in deze zelfstudie wordt deze geïdentificeerd als doelkolom voor voorspellingen.

Een werkruimte maken

Een Azure Machine Learning-werkruimte is een basisblok in de cloud dat u gebruikt voor het experimenteren, trainen en implementeren van machine learning-modellen. De klasse bindt uw Azure-abonnement en resourcegroep aan een eenvoudig te verbruiken object in de service.

In deze zelfstudie voert u de volgende stappen uit om een werkruimte te maken en door te gaan met de zelfstudie.

Meld u aan bij Azure Machine Learning-studio
Werkruimte maken selecteren
Geef de volgende gegevens op om uw nieuwe werkruimte te configureren:

Veld	Beschrijving
Werkruimtenaam	Voer een unieke naam in die uw werkruimte aanduidt. Namen moeten uniek zijn binnen de resourcegroep. Gebruik een naam die gemakkelijk te onthouden is en te onderscheiden is van door anderen gemaakte werkruimten. De naam van de werkruimte is niet hoofdlettergevoelig.
Abonnement	Selecteer het Azure-abonnement dat u wilt gebruiken.
Resourcegroep	Gebruik een bestaande resourcegroep in uw abonnement of voer een naam in om een nieuwe resourcegroep te maken. Een resourcegroep bevat gerelateerde resources voor een Azure-oplossing. U hebt de rol inzender of eigenaar nodig om een bestaande resourcegroep te kunnen gebruiken. Zie Toegang tot een Azure Machine Learning-werkruimte beheren voor meer informatie over toegang.
Regio	Selecteer de Azure-regio het dichtst bij uw gebruikers en de gegevensbronnen om uw werkruimte te maken.

Selecteer Maken om de werkruimte te maken

Raadpleeg de stappen in dit artikel voor meer informatie over Azure-resources. Maak resources die u nodig hebt om aan de slag te gaan.

Voor andere manieren om een werkruimte te maken in Azure, beheert u Azure Machine Learning-werkruimten in de portal of met de Python SDK (v2).

Een geautomatiseerde Machine Learning-taak maken

U doorloopt de volgende stappen voor het voorbereiden en uitvoeren van het experiment via de Azure Machine Learning Studio op https://ml.azure.com, een geconsolideerde webinterface met hulpmiddelen voor machine learning waar gegevenswetenschappers, ongeacht hun vaardigheidsniveaus, scenario's kunnen uitvoeren. De Studio wordt niet ondersteund in Internet Explorer-browsers.

Selecteer uw abonnement en de werkruimte die u heeft gemaakt.
Selecteer in het linkerdeelvenster Geautomatiseerde ML onder de sectie Ontwerpen .

Aangezien dit uw eerste experiment voor geautomatiseerde ML is, ziet u een lege lijst en koppelingen naar documentatie.
Selecteer +Nieuwe geautomatiseerde ML-taak.
Automatisch trainen selecteren
De taak starten selecteren
Selecteer in de sectie Experimentnaam de optie Nieuw maken en voer deze experimentnaam in: my-1st-automl-experiment

Een gegevensset maken en laden als gegevensasset

Voordat u uw experiment configureert, uploadt u het gegevensbestand naar uw werkruimte in de vorm van een Azure Machine Learning-gegevensasset. In het geval van deze zelfstudie kunt u een gegevensasset beschouwen als uw gegevensset voor de AutoML-taak. Als u dit doet, kunt u ervoor zorgen dat uw gegevens op de juiste wijze zijn opgemaakt voor uw experiment.

Selecteer Classfication als taaktype.

Maak een nieuwe gegevensasset door Maken te selecteren.

Geef in het formulier Basisinformatie een naam op voor uw gegevensasset en geef een optionele beschrijving op. De geautomatiseerde ML-interface ondersteunt momenteel enkel TabularDatasets. Het type gegevensset moet dus standaard op In tabelvorm staan.
Selecteer Volgende in de linkerbenedenhoek
Selecteer, in het formulier Gegevensarchief- en bestandsselectie het standaard gegevensarchief dat automatisch werd ingesteld bij het aanmaken van uw werkruimte, workspaceblobstore (Azure Blob Storage). Hier uploadt u uw gegevensbestand om het beschikbaar te maken voor uw werkruimte.
Selecteer Bestanden uploaden in de vervolgkeuzelijst Uploaden .
Kies het bestand bankmarketing_train.csv op uw lokale computer. Dit is het bestand dat u hebt gedownload als vereiste.
Selecteer Volgende linksonder om het bestand te uploaden naar de standaardcontainer die automatisch werd opgezet bij het aanmaken van de werkruimte.

Wanneer het uploaden is voltooid, wordt het formulier Instellingen en voorbeeld vooraf ingevuld op basis van het bestandstype.

Controleer of uw gegevens correct zijn opgemaakt via het schemaformulier . De gegevens moeten als volgt worden ingevuld. Nadat u hebt gecontroleerd of de gegevens juist zijn, selecteert u Volgende.

Veld	Beschrijving	Waarde voor zelfstudie
File format	Definieert de indeling en het type gegevens dat is opgeslagen in een bestand.	Met scheidingstekens
Scheidingsteken	Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen.	Door komma's gescheiden
Codering	Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen.	UTF-8
Kolomkoppen	Geeft aan hoe koppen van de gegevensset eventueel worden behandeld.	Alle bestanden hebben dezelfde koppen
Rijen overslaan	Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset.	Geen

Met het formulier Schema kunt u uw gegevens verder configureren voor dit experiment. Voor dit voorbeeld selecteert u de wisselknop voor de day_of_week, zodat u deze niet wilt opnemen. Selecteer Volgende.
Controleer of de informatie in het formulier Details bevestigen overeenkomt met wat voorheen in de formulieren Basisinformatie, Gegevensarchief en bestandselectie en Instellingen en voorbeeld is ingevuld.
Selecteren Maken om uw gegevensset te voltooien.
Selecteer uw gegevensset wanneer deze verschijnt in de lijst.
Controleer de gegevens door de gegevensasset te selecteren en naar het voorbeeldtabblad te kijken dat wordt ingevuld om ervoor te zorgen dat u day_of_week niet hebt opgenomen en selecteer vervolgens Sluiten.
Selecteer Volgende.

Taak configureren

Nadat u uw gegevens hebt geladen en geconfigureerd, kunt u uw experiment instellen. Dit installatieprogramma bevat ontwerptaken voor het experiment, zoals, het selecteren van de grootte van uw rekenomgeving en het opgeven van de kolom die u wilt voorspellen.

Vul het formulier Taak configureren als volgt in:

Selecteer y als doelkolom, wat u wilt voorspellen. Deze kolom geeft aan of de klant een termijnrekening heeft geopend of niet.

Selecteer Aanvullende configuratie-instellingen weergeven en vul de velden als volgt in. Dankzij deze instellingen kunt u de trainingstaak beter controleren. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.

Aanvullende configuraties	Beschrijving	Waarde voor zelfstudie
Primaire metrische gegevens	Evaluatiewaarde waarmee het machine learning-algoritme wordt gemeten.	AUC_weighted
Uitleg geven over het beste model	Hiermee wordt automatisch uitleg gegeven over het beste model dat is gemaakt met geautomatiseerde ML.	Inschakelen
Geblokkeerde algoritmen	Algoritmen die u niet wilt opnemen in de trainingstaak	Geen
Aanvullende classificatie-instellingen	Deze instellingen helpen de nauwkeurigheid van het model te verbeteren	Label van positieve klasse: Geen
Criterium voor afsluiten	Als er aan een criterium is voldaan, wordt de trainingstaak gestopt.	Trainingstaaktijd (uren): 1 Drempelwaarde voor metrische score: geen
Gelijktijdigheid	Het maximum aantal parallelle iteraties uitgevoerd per iteratie	Maximum aantal gelijktijdige iteraties: 5

Selecteer Opslaan.

Op het formulier [Optioneel] Valideren en testen ,
1. Selecteer kruisvalidatie in k-vouwen als validatietype.
2. Selecteer 2 als uw aantal kruisvalidaties.
Selecteer Volgende
Selecteer het rekencluster als rekentype.

Een rekendoel is een resource-omgeving, lokaal of in de cloud, die gebruikt wordt om uw trainingsscript uit te voeren of uw service-implementatie te hosten. Voor dit experiment kunt u een serverloze berekening in de cloud (preview) uitproberen of uw eigen cloudgebaseerde rekenkracht maken.

Als u serverloze berekeningen wilt gebruiken, schakelt u de preview-functie in, selecteert u Serverloos en slaat u de rest van deze stap over.

Als u uw eigen rekendoel wilt maken, selecteert u +Nieuw om uw rekendoel te configureren.

Vul het formulier Virtuele machine selecteren in om uw rekenproces in te stellen.

Veld	Beschrijving	Waarde voor zelfstudie
Locatie	Uw regio van waaruit u de machine wilt uitvoeren	VS - west 2
Virtuele-machinelaag	Selecteer de prioriteit die het experiment moet krijgen	Toegewezen
VM-type	Selecteer het type van de virtuele machine voor uw berekening.	CPU (Central Processing Unit, centrale verwerkingseenheid)
Grootte van de virtuele machine	Selecteer de grootte van de virtuele machine voor uw berekening. Er wordt een lijst met aanbevolen grootten geboden, op basis van uw gegevens en het type experiment.	Standard_DS12_V2

Selecteer Volgende om het formulier Instellingen configureren in te vullen.

Veld	Beschrijving	Waarde voor zelfstudie
Naam berekening	Een unieke naam die de context van uw berekening identificeert.	automl-compute
Min / Max knooppunten	U moet u één of meer knooppunten opgeven om gegevens te profileren.	Min. knooppunten: 1 Max. knooppunten: 6
Seconden wachten voor omlaag schalen	Niet-actieve tijd voordat het cluster automatisch omlaag wordt geschaald naar het minimum aantal knooppunten.	120 (standaardinstelling)
Geavanceerde instellingen	Instellingen voor het configureren en autoriseren van een virtueel netwerk voor uw experiment.	Geen

Selecteer Maken om uw rekendoel te maken.

Dit duurt enkele minuten.
Wanneer dit is voltooid, selecteert u uw nieuwe rekendoel uit de vervolgkeuzelijst.

Selecteer Volgende.
Selecteer Trainingstaak verzenden om het experiment uit te voeren. Het scherm Taakoverzicht wordt geopend met de taakstatus bovenaan wanneer de voorbereiding van het experiment begint. Deze status wordt bijgewerkt wanneer het experiment wordt uitgevoerd. Meldingen worden ook weergegeven in de rechterbovenhoek van de studio om u te informeren over de status van uw experiment.

Belangrijk

Het duurt 10-15 minuten om de experimentele uitvoerbewerking voor te bereiden. Zodra de uitvoering is gestart duurt het 2-3 minuten langer per iteratie.

Bij een productie zou u waarschijnlijk even weggaan. Maar voor deze zelfstudie raden we aan om onder het tabblad Modellen de geteste algoritmen te bekijken die voltooid zijn terwijl de andere nog worden uitgevoerd.

Modellen bekijken

Ga naar het tabblad Modellen om de geteste algoritmen (modellen) te bekijken. De modellen worden standaard gerangschikt op hun metrische score terwijl ze worden voltooid. Voor deze zelfstudie staat het model dat het hoogst scoort op basis van de gekozen metrische waarde AUC_weighted bovenaan de lijst.

Terwijl u wacht tot alle experimentmodellen zijn voltooid, kunt u de Algoritmenaam van een volledig model selecteren om de prestatiedetails te bekijken.

In het volgende gedeelte kunt u naar de tabbladen Details en Metrische gegevens gaan om de eigenschappen, metrische gegevens en prestatiegrafieken van het geselecteerde model te bekijken.

Details van uitvoeringsiteratie

Modeluitleg

Terwijl u wacht tot de modellen zijn voltooid, kunt u ook modeluitleg bekijken en zien welke gegevensfuncties (onbewerkt of ontworpen) de voorspellingen van een bepaald model hebben beïnvloed.

Deze modeluitleg kunnen op aanvraag worden gegenereerd en worden samengevat in het dashboard voor modeluitleg dat deel uitmaakt van het tabblad Uitleg (preview).

Modeluitleg genereren,

Selecteer Taak 1 bovenaan om terug te gaan naar het scherm Modellen .
Selecteer het tabblad Modellen .
Voor deze zelfstudie selecteert u het eerste Model MaxAbsScaler, LightGBM .
Selecteer de knop Model uitleggen bovenaan. Aan de rechterkant wordt het deelvenster Model uitleggen weergegeven.
Selecteer de automl-compute die u eerder hebt gemaakt. Dit rekencluster initieert een onderliggende taak om de modeluitleg te genereren.
Selecteer Maken onderaan. Er wordt een groen bericht weergegeven boven aan het scherm.

Notitie

Het duurt ongeveer 2-5 minuten om de uitlegtaak te voltooien.
Selecteer de knop Uitleg (preview). Dit tabblad wordt ingevuld zodra de uitvoering van de uitleg is voltooid.
Vouw aan de linkerkant het deelvenster uit en selecteer de rij met onbewerkte tekst onder Functies.
Selecteer het tabblad Urgentie van statistische functies aan de rechterkant. In deze grafiek ziet u welke gegevensfuncties invloed hebben gehad op de voorspellingen van het geselecteerde model.

In dit voorbeeld lijkt de duur de meeste invloed te hebben op de voorspellingen van dit model.

Het beste model implementeren

In de geautomatiseerde machine learning-interface kunt u met enkele stappen het beste model implementeren als webservice. Implementatie is de integratie van het model zodat het nieuwe gegevens kan voorspellen en potentiële kansgebieden kan identificeren.

Voor dit experiment betekent de implementatie naar een webservice dat de financiële instelling nu een iteratieve en schaalbare weboplossing heeft om potentiële klanten voor termijnrekeningen te identificeren.

Controleer of de uitvoering van uw experimentele uitvoerbewerking is voltooid. Hiervoor gaat u terug naar de bovenliggende taakpagina door Taak 1 boven aan het scherm te selecteren. In de linkerbovenhoek van het scherm wordt de status Voltooid weergegeven.

Zodra de uitvoering van het experiment is voltooid, wordt op de pagina Details een sectie met Beste modeloverzicht ingevuld. In de context van dit experiment is VotingEnsemble het beste model op basis van de metrische waarde AUC_weighted.

We implementeren dit model, maar houd er rekening mee dat implementatie ongeveer 20 minuten duurt. Het implementatieproces omvat verschillende stappen, waaronder het model registreren, resources genereren en ze configureren voor de webservice.

Selecteer VotingEnsemble om de model-specifieke pagina te openen.
Selecteer het menu Implementeren in de linkerbovenhoek en selecteer Implementeren in webservice.

Vul het deelvenster Een model implementeren als volgt in:

Veld	Waarde
Naam van implementatie	my-automl-deploy
Beschrijving van implementatie	Implementatie van mijn eerste geautomatiseerde machine learning-experiment
Rekentype	Selecteer Azure Container Instance (ACI)
Verificatie inschakelen	Uitgeschakeld.
Aangepaste implementaties gebruiken	Uitgeschakeld. Hiermee kan het standaardstuurprogrammabestand (scorescript) en het omgevingsbestand automatisch worden gegenereerd.

In dit voorbeeld gebruiken we de standaardwaarden in het menu Geavanceerd.

Selecteer Implementeren.

Boven aan het taakscherm verschijnt een groen bericht met succes en in het deelvenster Modeloverzicht wordt een statusbericht weergegeven onder Implementatiestatus. Selecteer regelmatig Vernieuwen om de implementatiestatus te controleren.

U hebt nu een operationele webservice om voorspellingen te genereren.

Ga verder met de Volgende stappen voor meer informatie over het gebruik van uw nieuwe webservice en test uw voorspellingen met de ingebouwde ondersteuning voor Azure Machine Learning van Power BI.

Resources opschonen

Implementatiebestanden zijn groter dan gegevens- en experimentbestanden. Daarom kost het meer om ze op te slaan. Verwijder alleen de implementatiebestanden om de kosten voor uw account te beperken, of als u uw werkruimte en experimentbestanden wilt behouden. Zo niet, verwijder dan de volledige resourcegroep als u geen enkel bestand wilt gebruiken.

Het implementatie-exemplaar verwijderen

Verwijder alleen het implementatie-exemplaar van Azure Machine Learning op https://ml.azure.com/, als u de resourcegroep en werkruimte wilt behouden voor andere zelfstudies en verkenning.

Ga naar Azure Machine Learning. Ga naar uw werkruimte en selecteer Eindpunten aan de linkerkant onder het deelvenster Assets.
Selecteer de implementatie die u wilt verwijderen en vervolgens Verwijderen.
Selecteer Doorgaan.

De resourcegroep verwijderen

Belangrijk

De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.

Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:

Selecteer Resourcegroepen links in Azure Portal.
Selecteer de resourcegroep die u hebt gemaakt uit de lijst.
Selecteer Resourcegroep verwijderen.
Voer de naam van de resourcegroup in. Selecteer daarna Verwijderen.

Volgende stappen

In deze zelfstudie over geautomatiseerde machine learning heeft u de geautomatiseerde ML-interface van Azure Machine Learning gebruikt om een classificatiemodel te maken en implementeren. Raadpleeg de volgende artikelen voor meer informatie en de volgende stappen:

Meer informatie over geautomatiseerde machine learning.
Raadpleeg het artikel Geautomatiseerde machine learning-resultaten begrijpen voor meer informatie over metrische classificatiegegevens en grafieken.
Meer informatie over het instellen van AutoML voor NLP.

Notitie

Deze bankmarketinggegevensset wordt beschikbaar gesteld onder de Creative Commons-licentie (CCO: Openbaar domein). Alle rechten voor individuele inhoudselementen van de database zijn gelicentieerd onder de Database Contents License en zijn beschikbaar op Kaggle. Deze gegevensset was oorspronkelijk beschikbaar binnen de UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez en P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, juni 2014.

Delen via