Zelfstudie: Vraag voorspellen zonder code geautomatiseerde machine learning in de Azure Machine Learning-studio

Leer hoe u een tijdreeksprognosemodel maakt zonder één regel code te schrijven met behulp van geautomatiseerde machine learning in de Azure Machine Learning-studio. Dit model voorspelt de huurvraag voor een service voor het delen van fietsen.

U schrijft geen code in deze zelfstudie. U gebruikt de studio-interface om training uit te voeren. U leert hoe u de volgende taken uitvoert:

  • Een gegevensset maken en laden.
  • Een automatisch ML-experiment configureren en uitvoeren.
  • Prognose-instellingen specificeren.
  • De resultaten van het experiment verkennen.
  • Het beste model implementeren.

Probeer ook geautomatiseerde machine learning voor deze andere modeltypen:

Vereisten

Meld u aan bij de studio

Voor deze zelfstudie maakt u een geautomatiseerd ML-experiment in Azure Machine Learning Studio, een geconsolideerde webinterface met hulpmiddelen voor machine learning waar gegevenswetenschappers, ongeacht hun vaardigheidsniveaus, scenario's kunnen uitvoeren. De studio wordt niet ondersteund in Internet Explorer-browsers.

  1. Meld u aan bij Azure Machine Learning Studio.

  2. Selecteer uw abonnement en de werkruimte die u heeft gemaakt.

  3. Selecteer Aan de slag.

  4. Selecteer in het linkerdeelvenster Geautomatiseerde ML in de sectie Maken.

  5. Selecteer +Nieuwe geautomatiseerde ML-taak.

Gegevensset maken en laden

Voordat u uw experiment gaat configureren, uploadt u uw gegevensbestand naar uw werkruimte in de vorm van een Azure Machine Learning-gegevensset. Als u dit doet, kunt u ervoor zorgen dat uw gegevens op de juiste wijze zijn opgemaakt voor uw experiment.

  1. Op het formulier Gegevensset selecteren, selecteert u Uit lokale bestanden in de keuzelijst +Gegevensset maken.

    1. Geef uw gegevensset een naam en een optionele beschrijving in het formulier Basisinformatie. Het type gegevensset moet standaard in Tabelvorm zijn, omdat automatische ML in Azure Machine Learning Studio momenteel alleen ondersteuning biedt voor gegevenssets in tabelvorm.

    2. Selecteer Volgende in de linkerbenedenhoek

    3. Selecteer, in het formulier Gegevensarchief- en bestandsselectie het standaard gegevensarchief dat automatisch werd ingesteld bij het aanmaken van uw werkruimte, workspaceblobstore (Azure Blob Storage). Dit is de opslaglocatie waar u uw gegevensbestand uploadt.

    4. Selecteer Bestanden uploaden in de vervolgkeuzelijst Uploaden .

    5. Kies het bestand bike-no.csv op uw lokale computer. Dit is het bestand dat u hebt gedownload als vereiste.

    6. Selecteer Volgende

      Wanneer het uploaden is voltooid, worden de instellingen en het voorbeeldformulier automatisch ingevuld op basis van het bestandstype.

    7. Controleer of het formulier Instellingen en voorbeeld als volgt is ingevuld en selecteer Volgende.

      Veld Beschrijving Waarde voor zelfstudie
      File format Definieert de indeling en het type gegevens dat is opgeslagen in een bestand. Met scheidingstekens
      Scheidingsteken Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen. Comma
      Codering Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen. UTF-8
      Kolomkoppen Geeft aan hoe koppen van de gegevensset eventueel worden behandeld. Alleen het eerste bestand bevat kopteksten
      Rijen overslaan Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset. Geen
    8. Met het formulier Schema kunt u uw gegevens verder configureren voor dit experiment.

      1. Voor dit voorbeeld negeert u de kolommen Informeel en Geregistreerd. Deze kolommen vormen een uitsplitsing van de kolom cnt, dus we nemen deze niet op.

      2. Voor dit voorbeeld moet u ook de standaardwaarden voor de Eigenschappen en Type opgeven.

      3. Selecteer Volgende.

    9. Controleer of de informatie in het formulier Details bevestigen overeenkomt met wat voorheen in de formulieren Basisinformatie en Instellingen en voorbeeld werd ingevuld.

    10. Selecteren Maken om uw gegevensset te voltooien.

    11. Selecteer uw gegevensset wanneer deze verschijnt in de lijst.

    12. Selecteer Volgende.

Taak configureren

Nadat u uw gegevens hebt geladen en geconfigureerd, stelt u uw externe rekendoel in en selecteert u welke kolom in uw gegevens u wilt voorspellen.

  1. Vul het taakformulier Configureren als volgt in:
    1. Een naam voor het experiment invoeren: automl-bikeshare

    2. Selecteer cnt als doelkolom, wat u wilt voorspellen. In deze kolom wordt het totale aantal gehuurde fietsen van bikeshare aangegeven.

    3. Selecteer het rekencluster als rekentype.

    4. Selecteer +Nieuw om uw rekendoel te configureren. Automatische ML ondersteunt alleen Azure Machine Learning-berekeningen.

      1. Vul het formulier Virtuele machine selecteren in om uw rekenproces in te stellen.

        Veld Beschrijving Waarde voor zelfstudie
        Virtuele-machinelaag Selecteer de prioriteit die het experiment moet krijgen Toegewezen
        VM-type Selecteer het type van de virtuele machine voor uw berekening. CPU (Central Processing Unit, centrale verwerkingseenheid)
        Grootte van de virtuele machine Selecteer de grootte van de virtuele machine voor uw berekening. Er wordt een lijst met aanbevolen grootten geboden, op basis van uw gegevens en het type experiment. Standard_DS12_V2
      2. Selecteer Volgende om het formulier Instellingen configureren in te vullen.

        Veld Beschrijving Waarde voor zelfstudie
        Naam berekening Een unieke naam die de context van uw berekening identificeert. bike-compute
        Min / Max knooppunten Als u gegevens wilt profilen, moet u een of meer knooppunten opgeven. Min. knooppunten: 1
        Max. knooppunten: 6
        Seconden wachten voor omlaag schalen Niet-actieve tijd voordat het cluster automatisch omlaag wordt geschaald naar het minimum aantal knooppunten. 120 (standaardinstelling)
        Geavanceerde instellingen Instellingen voor het configureren en autoriseren van een virtueel netwerk voor uw experiment. Geen
      3. Selecteer Maken om het rekendoel op te halen.

        Dit duurt enkele minuten.

      4. Wanneer dit is voltooid, selecteert u uw nieuwe rekendoel uit de vervolgkeuzelijst.

    5. Selecteer Volgende.

Prognose-instellingen selecteren

Voltooi de installatie voor uw automatische ML-experiment door het taaktype en de configuratie-instellingen van de machine learning op te geven.

  1. Selecteer op het formulier Taaktype en instellingen de optie Prognose tijdreeks als het type machine learning-taak.

  2. Selecteer datum als uw Tijdkolom en laat Tijdreeks-id’s leeg.

  3. De frequentie is hoe vaak uw historische gegevens worden verzameld. Autodetectie behouden geselecteerd.

  4. De prognoseperiode is hoe ver in de toekomst u voorspellingen wilt maken. Schakel Autodetectie uit en typ 14 in het veld.

  5. Selecteer Aanvullende configuratie-instellingen weergeven en vul de velden als volgt in. Deze instellingen zijn bedoeld om de trainingstaak beter te besturen en om instellingen voor uw prognose op te geven. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.

    Aanvullende configuraties Beschrijving Waarde voor zelfstudie
    Primaire metrische gegevens Evaluatiewaarde waarmee het machine learning-algoritme wordt gemeten. Genormaliseerde wortel gemiddelde kwadraatfout
    Uitleg geven over het beste model Hiermee wordt automatisch uitleg gegeven over het beste model dat is gemaakt met geautomatiseerde ML. Inschakelen
    Geblokkeerde algoritmen Algoritmen die u niet wilt opnemen in de trainingstaak Extreme willekeurige structuren
    Aanvullende prognose-instellingen Deze instellingen helpen de nauwkeurigheid van het model te verbeteren.

    Doelvertraging voorspellen: hoe ver terug u de vertraging van de doelvariabele wilt maken
    Doelvenster voor rolling: hiermee geeft u de grootte op van het rolling venster waarvoor functies, zoals het maximum, de minimum en de som, worden gegenereerd.


    Prognosedoelvertragingen: geen
    Grootte van rollend venster: Geen
    Criterium voor afsluiten Als er aan een criterium is voldaan, wordt de trainingstaak gestopt. Trainingstaaktijd (uren): 3
    Drempelwaarde voor metrische score: geen
    Gelijktijdigheid Het maximum aantal parallelle iteraties uitgevoerd per iteratie Maximum aantal gelijktijdige iteraties: 6

    Selecteer Opslaan.

  6. Selecteer Volgende.

  7. Op het formulier [Optioneel] Valideren en testen ,

    1. Selecteer kruisvalidatie in k-vouwen als validatietype.
    2. Selecteer 5 als uw aantal kruisvalidaties.

Experiment uitvoeren

Selecteer Voltooien om uw experiment uit te voeren. Het scherm Taakdetails wordt geopend met de taakstatus bovenaan het taaknummer. Deze status wordt bijgewerkt wanneer het experiment wordt uitgevoerd. Meldingen worden ook weergegeven in de rechterbovenhoek van Studio, zodat u op de hoogte blijft van de status van het experiment.

Belangrijk

De voorbereiding duurt 10-15 minuten om de experimenttaak voor te bereiden. Zodra de uitvoering is gestart duurt het 2-3 minuten langer per iteratie.

In productie zou u waarschijnlijk even weglopen omdat dit proces tijd in beslag neemt. Terwijl u wacht, wordt u aangeraden de geteste algoritmen te verkennen op het tabblad Modellen.

Modellen bekijken

Ga naar het tabblad Modellen om de geteste algoritmen (modellen) te bekijken. De modellen worden standaard gerangschikt op hun metrische score terwijl ze worden voltooid. Voor deze zelfstudie staat het model dat het hoogst scoort op basis van de gekozen metrische gegevens Genormaliseerde wortel gemiddelde kwadraatfout bovenaan de lijst.

Terwijl u wacht tot alle experimentmodellen zijn voltooid, kunt u de Algoritmenaam van een volledig model selecteren om de prestatiedetails te bekijken.

In het volgende voorbeeld wordt genavigeert om een model te selecteren in de lijst met modellen die door de taak zijn gemaakt. Vervolgens selecteert u het tabblad Overzicht en de tabbladen Metrische gegevens om de eigenschappen, metrische gegevens en prestatiegrafieken van het geselecteerde model weer te geven.

Run Overview

Model implementeren

Met geautomatiseerde machine learning in Azure Machine Learning Studio kunt u met enkele stappen het beste model implementeren als webservice. Implementatie is de integratie van het model zodat het nieuwe gegevens kan voorspellen en potentiële kansgebieden kan identificeren.

Voor dit experiment houdt het implementeren naar een webservice in dat het BikeShare-bedrijf nu een iteratieve en schaalbare weboplossing heeft voor het voorspellen van de vraag naar het huren van fietsen.

Zodra de taak is voltooid, gaat u terug naar de bovenliggende taakpagina door Taak 1 boven aan het scherm te selecteren.

In de sectie Beste modelsamenvatting , het beste model in de context van dit experiment, is geselecteerd op basis van de genormaliseerde gemiddelde kwadratische foutmetriek.

We implementeren dit model, maar houd er rekening mee dat implementatie ongeveer 20 minuten duurt. Het implementatieproces omvat verschillende stappen, waaronder het model registreren, resources genereren en ze configureren voor de webservice.

  1. Selecteer het beste model om de modelspecifieke pagina te openen.

  2. Selecteer de knop Implementeren in het gedeelte linksboven in het scherm.

  3. Vul het deelvenster Een model implementeren als volgt in:

    Veld Waarde
    Naam van implementatie Implementeren Bike share
    Beschrijving van implementatie implementatie van vraag naar bike share
    Rekentype Azure Compute Instance (ACI) selecteren
    Verificatie inschakelen Uitgeschakeld.
    Aangepaste implementatie-assets gebruiken Uitgeschakeld. Met Uitschakelen staat u toe dat het standaard stuurprogrammabestand (scorescript) en het omgevingsbestand automatisch worden gegenereerd.

    In dit voorbeeld gebruiken we de standaardwaarden in het menu Geavanceerd.

  4. Selecteer Implementeren.

    Bovenaan het taakscherm wordt een groen bericht weergegeven waarin staat dat de implementatie is gestart. De voortgang van de implementatie kan u vinden in het deelvenster Modeloverzicht onder Status implementen.

Zodra de implementatie is voltooid, hebt u een operationele webservice om voorspellingen te genereren.

Ga verder met de Volgende stappen voor meer informatie over het gebruik van uw nieuwe webservice en test uw voorspellingen met de ingebouwde ondersteuning voor Azure Machine Learning van Power BI.

Resources opschonen

Implementatiebestanden zijn groter dan gegevens- en experimentbestanden. Daarom kost het meer om ze op te slaan. Verwijder alleen de implementatiebestanden om de kosten voor uw account te beperken, of als u uw werkruimte en experimentbestanden wilt behouden. Zo niet, verwijder dan de volledige resourcegroep als u geen enkel bestand wilt gebruiken.

Het implementatie-exemplaar verwijderen

Verwijder alleen het implementatie-exemplaar van Azure Machine Learning indien u de resourcegroep en werkruimte wilt behouden voor andere zelfstudies en verkenning.

  1. Ga naar de Azure Machine Learning Studio. Ga naar uw werkruimte en selecteer Eindpunten aan de linkerkant onder het deelvenster Assets.

  2. Selecteer de implementatie die u wilt verwijderen en vervolgens Verwijderen.

  3. Selecteer Doorgaan.

De resourcegroep verwijderen

Belangrijk

De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.

Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:

  1. Selecteer Resourcegroepen links in Azure Portal.

  2. Selecteer de resourcegroep die u hebt gemaakt uit de lijst.

  3. Selecteer Resourcegroep verwijderen.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. Voer de naam van de resourcegroup in. Selecteer daarna Verwijderen.

Volgende stappen

In deze zelfstudie hebt u gebruikgemaakt van geautomatiseerde ML in de Azure Machine Learning Studio voor het maken en implementeren van een tijdreeks-prognosemodel waarmee de vraag naar bikeshare-verhuur wordt voorspeld.

Raadpleeg dit artikel voor stappen voor het maken van een door Power BI ondersteund schema om het gebruik van uw pas geïmplementeerde webservice te faciliteren:

Notitie

Deze bikeshare-gegevensset is gewijzigd voor deze zelfstudie. Deze gegevensset is beschikbaar gemaakt als onderdeel van een Kaggle-wedstrijd en was oorspronkelijk beschikbaar via Capital Bikeshare. Hij kan ook worden gevonden in de UCI Machine Learning-database.

Bron: Fanaee-T, Hadi en Aangemerkt, Joao, Event labeling combineren ensemble detectoren en achtergrondkennis, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg.