Zelfstudie: Vraag voorspellen zonder code geautomatiseerde machine learning in de Azure Machine Learning-studio

Artikel
12/06/2023

Leer hoe u een tijdreeksprognosemodel maakt zonder één regel code te schrijven met behulp van geautomatiseerde machine learning in de Azure Machine Learning-studio. Dit model voorspelt de huurvraag voor een service voor het delen van fietsen.

U schrijft geen code in deze zelfstudie. U gebruikt de studio-interface om training uit te voeren. U leert hoe u de volgende taken uitvoert:

Een gegevensset maken en laden.
Een automatisch ML-experiment configureren en uitvoeren.
Prognose-instellingen specificeren.
De resultaten van het experiment verkennen.
Het beste model implementeren.

Probeer ook geautomatiseerde machine learning voor deze andere modeltypen:

Zie Zelfstudie: Een classificatiemodel maken met geautomatiseerde ML in Azure Machine Learning voor een voorbeeld zonder code van een classificatiemodel.
Zie de zelfstudie: Een objectdetectiemodel trainen met AutoML en Python voor een codevoorbeeld van een objectdetectiemodel.

Vereisten

Een Azure Machine Learning-werkruimte. Zie Werkruimtebronnen maken.
Het gegevensbestand bike-no.csv downloaden

Voor deze zelfstudie maakt u een geautomatiseerd ML-experiment in Azure Machine Learning Studio, een geconsolideerde webinterface met hulpmiddelen voor machine learning waar gegevenswetenschappers, ongeacht hun vaardigheidsniveaus, scenario's kunnen uitvoeren. De studio wordt niet ondersteund in Internet Explorer-browsers.

Meld u aan bij Azure Machine Learning Studio.
Selecteer uw abonnement en de werkruimte die u heeft gemaakt.
Selecteer Aan de slag.
Selecteer in het linkerdeelvenster Geautomatiseerde ML in de sectie Maken.
Selecteer +Nieuwe geautomatiseerde ML-taak.

Gegevensset maken en laden

Voordat u uw experiment gaat configureren, uploadt u uw gegevensbestand naar uw werkruimte in de vorm van een Azure Machine Learning-gegevensset. Als u dit doet, kunt u ervoor zorgen dat uw gegevens op de juiste wijze zijn opgemaakt voor uw experiment.

Op het formulier Gegevensset selecteren, selecteert u Uit lokale bestanden in de keuzelijst +Gegevensset maken.

Geef uw gegevensset een naam en een optionele beschrijving in het formulier Basisinformatie. Het type gegevensset moet standaard in Tabelvorm zijn, omdat automatische ML in Azure Machine Learning Studio momenteel alleen ondersteuning biedt voor gegevenssets in tabelvorm.
Selecteer Volgende in de linkerbenedenhoek
Selecteer, in het formulier Gegevensarchief- en bestandsselectie het standaard gegevensarchief dat automatisch werd ingesteld bij het aanmaken van uw werkruimte, workspaceblobstore (Azure Blob Storage). Dit is de opslaglocatie waar u uw gegevensbestand uploadt.
Selecteer Bestanden uploaden in de vervolgkeuzelijst Uploaden .
Kies het bestand bike-no.csv op uw lokale computer. Dit is het bestand dat u hebt gedownload als vereiste.
Selecteer Volgende

Wanneer het uploaden is voltooid, worden de instellingen en het voorbeeldformulier automatisch ingevuld op basis van het bestandstype.

Controleer of het formulier Instellingen en voorbeeld als volgt is ingevuld en selecteer Volgende.

Veld	Beschrijving	Waarde voor zelfstudie
File format	Definieert de indeling en het type gegevens dat is opgeslagen in een bestand.	Met scheidingstekens
Scheidingsteken	Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen.	Comma
Codering	Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen.	UTF-8
Kolomkoppen	Geeft aan hoe koppen van de gegevensset eventueel worden behandeld.	Alleen het eerste bestand bevat kopteksten
Rijen overslaan	Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset.	Geen

Met het formulier Schema kunt u uw gegevens verder configureren voor dit experiment.
1. Voor dit voorbeeld negeert u de kolommen Informeel en Geregistreerd. Deze kolommen vormen een uitsplitsing van de kolom cnt, dus we nemen deze niet op.
2. Voor dit voorbeeld moet u ook de standaardwaarden voor de Eigenschappen en Type opgeven.
3. Selecteer Volgende.
Controleer of de informatie in het formulier Details bevestigen overeenkomt met wat voorheen in de formulieren Basisinformatie en Instellingen en voorbeeld werd ingevuld.
Selecteren Maken om uw gegevensset te voltooien.
Selecteer uw gegevensset wanneer deze verschijnt in de lijst.
Selecteer Volgende.

Taak configureren

Nadat u uw gegevens hebt geladen en geconfigureerd, stelt u uw externe rekendoel in en selecteert u welke kolom in uw gegevens u wilt voorspellen.

Vul het taakformulier Configureren als volgt in:

Een naam voor het experiment invoeren: automl-bikeshare
Selecteer cnt als doelkolom, wat u wilt voorspellen. In deze kolom wordt het totale aantal gehuurde fietsen van bikeshare aangegeven.
Selecteer het rekencluster als rekentype.

Selecteer +Nieuw om uw rekendoel te configureren. Automatische ML ondersteunt alleen Azure Machine Learning-berekeningen.

Vul het formulier Virtuele machine selecteren in om uw rekenproces in te stellen.

Veld	Beschrijving	Waarde voor zelfstudie
Virtuele-machinelaag	Selecteer de prioriteit die het experiment moet krijgen	Toegewezen
VM-type	Selecteer het type van de virtuele machine voor uw berekening.	CPU (Central Processing Unit, centrale verwerkingseenheid)
Grootte van de virtuele machine	Selecteer de grootte van de virtuele machine voor uw berekening. Er wordt een lijst met aanbevolen grootten geboden, op basis van uw gegevens en het type experiment.	Standard_DS12_V2

Selecteer Volgende om het formulier Instellingen configureren in te vullen.

Veld	Beschrijving	Waarde voor zelfstudie
Naam berekening	Een unieke naam die de context van uw berekening identificeert.	bike-compute
Min / Max knooppunten	Als u gegevens wilt profilen, moet u een of meer knooppunten opgeven.	Min. knooppunten: 1 Max. knooppunten: 6
Seconden wachten voor omlaag schalen	Niet-actieve tijd voordat het cluster automatisch omlaag wordt geschaald naar het minimum aantal knooppunten.	120 (standaardinstelling)
Geavanceerde instellingen	Instellingen voor het configureren en autoriseren van een virtueel netwerk voor uw experiment.	Geen

Selecteer Maken om het rekendoel op te halen.

Dit duurt enkele minuten.
Wanneer dit is voltooid, selecteert u uw nieuwe rekendoel uit de vervolgkeuzelijst.

Selecteer Volgende.

Prognose-instellingen selecteren

Voltooi de installatie voor uw automatische ML-experiment door het taaktype en de configuratie-instellingen van de machine learning op te geven.

Selecteer op het formulier Taaktype en instellingen de optie Prognose tijdreeks als het type machine learning-taak.
Selecteer datum als uw Tijdkolom en laat Tijdreeks-id’s leeg.
De frequentie is hoe vaak uw historische gegevens worden verzameld. Autodetectie behouden geselecteerd.
De prognoseperiode is hoe ver in de toekomst u voorspellingen wilt maken. Schakel Autodetectie uit en typ 14 in het veld.

Selecteer Aanvullende configuratie-instellingen weergeven en vul de velden als volgt in. Deze instellingen zijn bedoeld om de trainingstaak beter te besturen en om instellingen voor uw prognose op te geven. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.

Aanvullende configuraties	Beschrijving	Waarde voor zelfstudie
Primaire metrische gegevens	Evaluatiewaarde waarmee het machine learning-algoritme wordt gemeten.	Genormaliseerde wortel gemiddelde kwadraatfout
Uitleg geven over het beste model	Hiermee wordt automatisch uitleg gegeven over het beste model dat is gemaakt met geautomatiseerde ML.	Inschakelen
Geblokkeerde algoritmen	Algoritmen die u niet wilt opnemen in de trainingstaak	Extreme willekeurige structuren
Aanvullende prognose-instellingen	Deze instellingen helpen de nauwkeurigheid van het model te verbeteren. Doelvertraging voorspellen: hoe ver terug u de vertraging van de doelvariabele wilt maken Doelvenster voor rolling: hiermee geeft u de grootte op van het rolling venster waarvoor functies, zoals het maximum, de minimum en de som, worden gegenereerd.	Prognosedoelvertragingen: geen Grootte van rollend venster: Geen
Criterium voor afsluiten	Als er aan een criterium is voldaan, wordt de trainingstaak gestopt.	Trainingstaaktijd (uren): 3 Drempelwaarde voor metrische score: geen
Gelijktijdigheid	Het maximum aantal parallelle iteraties uitgevoerd per iteratie	Maximum aantal gelijktijdige iteraties: 6

Selecteer Opslaan.

Selecteer Volgende.
Op het formulier [Optioneel] Valideren en testen ,
1. Selecteer kruisvalidatie in k-vouwen als validatietype.
2. Selecteer 5 als uw aantal kruisvalidaties.

Experiment uitvoeren

Selecteer Voltooien om uw experiment uit te voeren. Het scherm Taakdetails wordt geopend met de taakstatus bovenaan het taaknummer. Deze status wordt bijgewerkt wanneer het experiment wordt uitgevoerd. Meldingen worden ook weergegeven in de rechterbovenhoek van Studio, zodat u op de hoogte blijft van de status van het experiment.

Belangrijk

De voorbereiding duurt 10-15 minuten om de experimenttaak voor te bereiden. Zodra de uitvoering is gestart duurt het 2-3 minuten langer per iteratie.

In productie zou u waarschijnlijk even weglopen omdat dit proces tijd in beslag neemt. Terwijl u wacht, wordt u aangeraden de geteste algoritmen te verkennen op het tabblad Modellen.

Modellen bekijken

Ga naar het tabblad Modellen om de geteste algoritmen (modellen) te bekijken. De modellen worden standaard gerangschikt op hun metrische score terwijl ze worden voltooid. Voor deze zelfstudie staat het model dat het hoogst scoort op basis van de gekozen metrische gegevens Genormaliseerde wortel gemiddelde kwadraatfout bovenaan de lijst.

Terwijl u wacht tot alle experimentmodellen zijn voltooid, kunt u de Algoritmenaam van een volledig model selecteren om de prestatiedetails te bekijken.

In het volgende voorbeeld wordt genavigeert om een model te selecteren in de lijst met modellen die door de taak zijn gemaakt. Vervolgens selecteert u het tabblad Overzicht en de tabbladen Metrische gegevens om de eigenschappen, metrische gegevens en prestatiegrafieken van het geselecteerde model weer te geven.

Run Overview

Model implementeren

Met geautomatiseerde machine learning in Azure Machine Learning Studio kunt u met enkele stappen het beste model implementeren als webservice. Implementatie is de integratie van het model zodat het nieuwe gegevens kan voorspellen en potentiële kansgebieden kan identificeren.

Voor dit experiment houdt het implementeren naar een webservice in dat het BikeShare-bedrijf nu een iteratieve en schaalbare weboplossing heeft voor het voorspellen van de vraag naar het huren van fietsen.

Zodra de taak is voltooid, gaat u terug naar de bovenliggende taakpagina door Taak 1 boven aan het scherm te selecteren.

In de sectie Beste modelsamenvatting , het beste model in de context van dit experiment, is geselecteerd op basis van de genormaliseerde gemiddelde kwadratische foutmetriek.

We implementeren dit model, maar houd er rekening mee dat implementatie ongeveer 20 minuten duurt. Het implementatieproces omvat verschillende stappen, waaronder het model registreren, resources genereren en ze configureren voor de webservice.

Selecteer het beste model om de modelspecifieke pagina te openen.
Selecteer de knop Implementeren in het gedeelte linksboven in het scherm.

Vul het deelvenster Een model implementeren als volgt in:

Veld	Waarde
Naam van implementatie	Implementeren Bike share
Beschrijving van implementatie	implementatie van vraag naar bike share
Rekentype	Azure Compute Instance (ACI) selecteren
Verificatie inschakelen	Uitgeschakeld.
Aangepaste implementatie-assets gebruiken	Uitgeschakeld. Met Uitschakelen staat u toe dat het standaard stuurprogrammabestand (scorescript) en het omgevingsbestand automatisch worden gegenereerd.

In dit voorbeeld gebruiken we de standaardwaarden in het menu Geavanceerd.

Selecteer Implementeren.

Bovenaan het taakscherm wordt een groen bericht weergegeven waarin staat dat de implementatie is gestart. De voortgang van de implementatie kan u vinden in het deelvenster Modeloverzicht onder Status implementen.

Zodra de implementatie is voltooid, hebt u een operationele webservice om voorspellingen te genereren.

Ga verder met de Volgende stappen voor meer informatie over het gebruik van uw nieuwe webservice en test uw voorspellingen met de ingebouwde ondersteuning voor Azure Machine Learning van Power BI.

Resources opschonen

Implementatiebestanden zijn groter dan gegevens- en experimentbestanden. Daarom kost het meer om ze op te slaan. Verwijder alleen de implementatiebestanden om de kosten voor uw account te beperken, of als u uw werkruimte en experimentbestanden wilt behouden. Zo niet, verwijder dan de volledige resourcegroep als u geen enkel bestand wilt gebruiken.

Het implementatie-exemplaar verwijderen

Verwijder alleen het implementatie-exemplaar van Azure Machine Learning indien u de resourcegroep en werkruimte wilt behouden voor andere zelfstudies en verkenning.

Ga naar de Azure Machine Learning Studio. Ga naar uw werkruimte en selecteer Eindpunten aan de linkerkant onder het deelvenster Assets.
Selecteer de implementatie die u wilt verwijderen en vervolgens Verwijderen.
Selecteer Doorgaan.

De resourcegroep verwijderen

Belangrijk

De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.

Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:

Selecteer Resourcegroepen links in Azure Portal.
Selecteer de resourcegroep die u hebt gemaakt uit de lijst.
Selecteer Resourcegroep verwijderen.
Voer de naam van de resourcegroup in. Selecteer daarna Verwijderen.

Volgende stappen

In deze zelfstudie hebt u gebruikgemaakt van geautomatiseerde ML in de Azure Machine Learning Studio voor het maken en implementeren van een tijdreeks-prognosemodel waarmee de vraag naar bikeshare-verhuur wordt voorspeld.

Raadpleeg dit artikel voor stappen voor het maken van een door Power BI ondersteund schema om het gebruik van uw pas geïmplementeerde webservice te faciliteren:

Een webservice gebruiken

Meer informatie over geautomatiseerde machine learning.
Raadpleeg het artikel Geautomatiseerde machine learning-resultaten begrijpen voor meer informatie over metrische classificatiegegevens en grafieken.

Notitie

Deze bikeshare-gegevensset is gewijzigd voor deze zelfstudie. Deze gegevensset is beschikbaar gemaakt als onderdeel van een Kaggle-wedstrijd en was oorspronkelijk beschikbaar via Capital Bikeshare. Hij kan ook worden gevonden in de UCI Machine Learning-database.

Bron: Fanaee-T, Hadi en Aangemerkt, Joao, Event labeling combineren ensemble detectoren en achtergrondkennis, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg.