AutoML-training zonder code instellen met de gebruikersinterface van studio

In dit artikel leert u hoe u AutoML-trainingstaken instelt zonder één regel code met behulp van geautomatiseerde ML van Azure Machine Learning in de Azure Machine Learning-studio.

Geautomatiseerde machine learning, AutoML, is een proces waarin het beste machine learning-algoritme voor uw specifieke gegevens voor u wordt geselecteerd. Met dit proces kunt u snel machine learning-modellen genereren. Meer informatie over hoe Azure Machine Learning geautomatiseerde machine learning implementeert.

Probeer voor een end-to-end-voorbeeld de zelfstudie: AutoML- classificatiemodellen zonder code trainen.

Voor een ervaring op basis van Python-code configureert u uw geautomatiseerde machine learning-experimenten met de Azure Machine Learning SDK.

Vereisten

Aan de slag

  1. Meld u aan bij Azure Machine Learning Studio.

  2. Selecteer uw abonnement en werkruimte.

  3. Navigeer naar het linkerdeelvenster. Selecteer Geautomatiseerde ML onder de sectie Auteur .

Navigatievenster van Azure Machine Learning Studio

Als dit de eerste keer is dat u experimenten uitvoert, ziet u een lege lijst en koppelingen naar documentatie.

Anders ziet u een lijst met uw recente geautomatiseerde ML-experimenten, inclusief de experimenten die zijn gemaakt met de SDK.

Experiment maken en uitvoeren

  1. Selecteer + Nieuwe geautomatiseerde ML-taak en vul het formulier in.

  2. Selecteer een gegevensasset in uw opslagcontainer of maak een nieuwe gegevensasset. Gegevensasset kan worden gemaakt op basis van lokale bestanden, web-URL's, gegevensarchieven of open Azure-gegevenssets. Meer informatie over het maken van gegevensassets.

    Belangrijk

    Vereisten voor trainingsgegevens:

    • Gegevens moeten in tabelvorm zijn.
    • De waarde die u wilt voorspellen (doelkolom) moet aanwezig zijn in de gegevens.
    1. Als u een nieuwe gegevensset wilt maken op basis van een bestand op uw lokale computer, selecteert u +Gegevensset maken en selecteert u vervolgens Een lokaal bestand.

    2. Geef uw gegevensset in het formulier Basisgegevens een unieke naam en geef een optionele beschrijving op.

    3. Selecteer Volgende om het formulier Gegevensarchief en bestandsselectie te openen. In dit formulier selecteert u waar u uw gegevensset wilt uploaden; de standaardopslagcontainer die automatisch wordt gemaakt met uw werkruimte of kies een opslagcontainer die u voor het experiment wilt gebruiken.

      1. Als uw gegevens zich achter een virtueel netwerk bevinden, moet u de validatiefunctie overslaan inschakelen om ervoor te zorgen dat de werkruimte toegang heeft tot uw gegevens. Zie Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk voor meer informatie.
    4. Selecteer Bladeren om het gegevensbestand voor uw gegevensset te uploaden.

    5. Controleer het instellingen- en voorbeeldformulier op nauwkeurigheid. Het formulier wordt intelligent ingevuld op basis van het bestandstype.

      Veld Description
      Bestandsindeling Definieert de indeling en het type gegevens dat is opgeslagen in een bestand.
      Scheidingsteken Een of meer tekens die de grens aangeven tussen afzonderlijke, onafhankelijke regio's in tekst zonder opmaak of andere gegevensstromen.
      Encoding Identificeert welke bit-naar-tekenschematabel er moet gebruikt worden om uw gegevensset te lezen.
      Kolomkoppen Geeft aan hoe eventuele koppen van de gegevensset worden behandeld.
      Rijen overslaan Geeft aan hoeveel rijen er eventueel worden overgeslagen in de gegevensset.

      Selecteer Next.

    6. Het schemaformulier wordt intelligent ingevuld op basis van de selecties in het formulier Instellingen en voorbeeld . Hier configureert u het gegevenstype voor elke kolom, controleert u de kolomnamen en selecteert u welke kolommen u niet wilt opnemen voor uw experiment.

      Selecteer Volgende.

    7. Het formulier Details bevestigen is een samenvatting van de informatie die eerder is ingevuld in de basisgegevens en instellingen en voorbeeldformulieren . U hebt ook de mogelijkheid om een gegevensprofiel voor uw gegevensset te maken met behulp van een rekenproces waarvoor profilering is ingeschakeld. Meer informatie over gegevensprofilering.

      Selecteer Next.

  3. Selecteer de zojuist gemaakte gegevensset zodra deze wordt weergegeven. U kunt ook een voorbeeld van de gegevensset en voorbeeldstatistieken bekijken.

  4. Selecteer in het taakformulier Configurerende optie Nieuw maken en voer Tutorial-automl-deploy in voor de naam van het experiment.

  5. Selecteer een doelkolom; dit is de kolom waarop u voorspellingen wilt doen.

  6. Selecteer een rekentype voor de gegevensprofilering en trainingstaak. U kunt een rekencluster of rekenproces selecteren.

  7. Selecteer een berekening in de vervolgkeuzelijst van uw bestaande berekeningen. Volg de instructies in stap 8 om een nieuwe berekening te maken.

  8. Selecteer Een nieuwe berekening maken om uw rekencontext voor dit experiment te configureren.

    Veld Description
    Naam berekening Voer een unieke naam in waarmee uw rekencontext wordt geïdentificeerd.
    Prioriteit van virtuele machine Virtuele machines met lage prioriteit zijn goedkoper, maar garanderen niet de rekenknooppunten.
    Type virtuele machine Selecteer CPU of GPU voor het type virtuele machine.
    Grootte van de virtuele machine Selecteer de grootte van de virtuele machine voor uw berekening.
    Min / Max knooppunten U moet u één of meer knooppunten opgeven om gegevens te profileren. Voer het maximum aantal knooppunten voor uw rekenproces in. De standaardwaarde is 6 knooppunten voor een AzureML Compute.
    Geavanceerde instellingen Met deze instellingen kunt u een gebruikersaccount en een bestaand virtueel netwerk voor uw experiment configureren.

    Selecteer Maken. Het maken van een nieuwe berekening kan enkele minuten duren.

    Notitie

    Uw rekennaam geeft aan of de berekening die u selecteert/maakt profilering is ingeschakeld. (Zie de sectiegegevensprofilering voor meer informatie).

    Selecteer Next.

  9. Selecteer in het formulier Taaktype en -instellingen het taaktype: classificatie, regressie of prognose. Zie ondersteunde taaktypen voor meer informatie.

    1. Voor classificatie kunt u deep learning ook inschakelen.

      Als Deep Learning is ingeschakeld, is validatie beperkt tot train_validation gesplitst. Meer informatie over validatieopties.

    2. Voor prognoses kunt u,

      1. Deep Learning inschakelen.

      2. Tijdkolom selecteren: Deze kolom bevat de tijdgegevens die moeten worden gebruikt.

      3. Selecteer de voorspellingshorizon: Geef aan hoeveel tijdseenheden (minuten/uren/dagen/weken/maanden/jaren) het model in de toekomst kan voorspellen. Hoe verder het model nodig is om in de toekomst te voorspellen, hoe minder nauwkeurig het wordt. Meer informatie over prognoses en de horizon voor prognoses.

  10. (Optioneel) Aanvullende configuratie-instellingen weergeven: aanvullende instellingen die u kunt gebruiken om de trainingstaak beter te beheren. Anders worden de standaardinstellingen toegepast op basis van de selectie en gegevens van het experiment.

    Aanvullende configuraties Description
    Primaire metrische gegevens Belangrijkste metrische gegevens die worden gebruikt voor het scoren van uw model. Meer informatie over metrische modelgegevens.
    Uitleg geven over het beste model Schakel deze optie in of uit om uitleg weer te geven voor het aanbevolen beste model.
    Deze functionaliteit is momenteel niet beschikbaar voor bepaalde prognosealgoritmen.
    Geblokkeerd algoritme Selecteer algoritmen die u wilt uitsluiten van de trainingstaak.

    Het toestaan van algoritmen is alleen beschikbaar voor SDK-experimenten.
    Zie de ondersteunde algoritmen voor elk taaktype.
    Criterium voor afsluiten Wanneer aan een van deze criteria wordt voldaan, wordt de trainingstaak gestopt.
    Trainingstaaktijd (uren): hoe lang kan de trainingstaak worden uitgevoerd.
    Drempelwaarde voor metrische score: Minimale metrische score voor alle pijplijnen. Dit zorgt ervoor dat als u een gedefinieerde doelmetriek hebt die u wilt bereiken, u niet meer tijd besteedt aan de trainingstaak dan nodig is.
    Gelijktijdigheid Maximum aantal gelijktijdige iteraties: maximum aantal pijplijnen (iteraties) om te testen in de trainingstaak. De taak wordt niet meer uitgevoerd dan het opgegeven aantal iteraties. Meer informatie over hoe geautomatiseerde ML meerdere onderliggende taken uitvoert op clusters.
  11. (Optioneel) Weergave-instellingen voor featurisatie: als u ervoor kiest automatische featurization in te schakelen in het formulier Aanvullende configuratie-instellingen , worden standaard featurization-technieken toegepast. In de weergave-instellingen kunt u deze standaardinstellingen wijzigen en dienovereenkomstig aanpassen. Meer informatie over het aanpassen van featurizations.

    Schermopname van het dialoogvenster Taaktype selecteren met de instellingen voor weergave-featurisatie gemarkeerd.

  12. Met het formulier [Optioneel] Valideren en testen kunt u het volgende doen.

    1. Geef het type validatie op dat moet worden gebruikt voor uw trainingstaak. Meer informatie over kruisvalidatie.

      1. Prognosetaken bieden alleen ondersteuning voor kruisvalidatie in k-vouwen.
    2. Geef een testgegevensset (preview) op om het aanbevolen model te evalueren dat geautomatiseerde ML aan het einde van uw experiment voor u genereert. Wanneer u testgegevens opgeeft, wordt aan het einde van uw experiment automatisch een testtaak geactiveerd. Deze testtaak is alleen bedoeld voor het beste model dat is aanbevolen door geautomatiseerde ML. Meer informatie over het ophalen van de resultaten van de externe testtaak.

      Belangrijk

      Het leveren van een testgegevensset voor het evalueren van gegenereerde modellen is een preview-functie. Deze mogelijkheid is een experimentele preview-functie en kan op elk gewenst moment worden gewijzigd.

      • Testgegevens worden beschouwd als een los van training en validatie, zodat de resultaten van de testtaak van het aanbevolen model niet worden voorgenomen. Meer informatie over vooroordelen tijdens modelvalidatie.
      • U kunt uw eigen testgegevensset opgeven of ervoor kiezen om een percentage van uw trainingsgegevensset te gebruiken. Testgegevens moeten de vorm hebben van een Azure Machine Learning TabularDataset.
      • Het schema van de testgegevensset moet overeenkomen met de trainingsgegevensset. De doelkolom is optioneel, maar als er geen doelkolom wordt aangegeven, worden er geen metrische testgegevens berekend.
      • De testgegevensset mag niet hetzelfde zijn als de trainingsgegevensset of de validatiegegevensset.
      • Prognosetaken bieden geen ondersteuning voor trainen/testen splitsen.

      Schermopname van het formulier waarin u validatiegegevens en testgegevens kunt selecteren

Featurization aanpassen

In het formulier Featurization kunt u automatische featurisatie in- of uitschakelen en de instellingen voor automatische featurisatie voor uw experiment aanpassen. Zie stap 10 in de sectie Experiment maken en uitvoeren om dit formulier te openen.

De volgende tabel bevat een overzicht van de aanpassingen die momenteel beschikbaar zijn via de studio.

Kolom Aanpassing
Inbegrepen Hiermee geeft u op welke kolommen moeten worden opgenomen voor training.
Functietype Wijzig het waardetype voor de geselecteerde kolom.
Impute with Selecteer met welke waarde ontbrekende waarden in uw gegevens moeten worden opgenomen.

aangepaste featurization Azure Machine Learning-studio

Experiment uitvoeren en resultaten weergeven

Selecteer Voltooien om uw experiment uit te voeren. Het voorbereiden van het experiment kan tot 10 minuten duren. Trainingstaken kunnen nog 2-3 minuten meer kosten voordat het uitvoeren van elke pijplijn is voltooid.

Notitie

De geautomatiseerde ML-algoritmen hebben inherente willekeurigheid die lichte variatie kan veroorzaken in de uiteindelijke score voor metrische gegevens van een aanbevolen model, zoals nauwkeurigheid. Geautomatiseerde ML voert indien nodig ook bewerkingen uit op gegevens zoals splitsing van train-test, train-validation split of kruisvalidatie. Dus als u een experiment met dezelfde configuratie-instellingen en primaire metrische gegevens meerdere keren uitvoert, ziet u waarschijnlijk variatie in de uiteindelijke score voor metrische gegevens van experimenten vanwege deze factoren.

Experimentgegevens bekijken

Het scherm Taakdetail wordt geopend op het tabblad Details . In dit scherm ziet u een samenvatting van de experimenttaak, inclusief een statusbalk bovenaan het taaknummer.

Het tabblad Modellen bevat een lijst met de gemaakte modellen, op volgorde van de metrische score. Standaardstaat het model dat het hoogst scoort op basis van het gekozen metrische gegeven bovenaan de lijst. Terwijl de trainingstaak meer modellen uitprobeert, worden deze toegevoegd aan de lijst. Gebruik dit om een snelle vergelijking te krijgen van de metrische gegevens voor de tot dusver geproduceerde modellen.

Taakdetails

Details van trainingstaak weergeven

Zoom in op een van de voltooide modellen om de details van de trainingstaak te bekijken. Op het tabblad Model worden details weergegeven, zoals een modeloverzicht en de hyperparameters die worden gebruikt voor het geselecteerde model.

Details van Hyperparameter

U kunt ook modelspecifieke grafieken met metrische prestatiegegevens bekijken op het tabblad Metrischegegevens. Meer informatie over grafieken.

Details van iteratie

Op het tabblad Gegevenstransformatie ziet u een diagram van welke gegevensvoorverwerking, functie-engineering, schaaltechnieken en het machine learning-algoritme zijn toegepast om dit model te genereren.

Belangrijk

Het tabblad Gegevenstransformatie is in preview. Deze mogelijkheid moet worden beschouwd als experimenteel en kan op elk gewenst moment worden gewijzigd.

Gegevenstransformatie

Resultaten van externe testtaken weergeven (preview)

Als u een testgegevensset hebt opgegeven of hebt gekozen voor een trainings-/testsplitsing tijdens het instellen van uw experiment, test geautomatiseerde ML het aanbevolen model standaard automatisch. Als gevolg hiervan berekent geautomatiseerde ML testgegevens om de kwaliteit van het aanbevolen model en de bijbehorende voorspellingen te bepalen.

Belangrijk

Het testen van uw modellen met een testgegevensset om gegenereerde modellen te evalueren, is een preview-functie. Deze mogelijkheid is een experimentele preview-functie en kan op elk gewenst moment worden gewijzigd.

Als u de metrische gegevens van de testtaak van het aanbevolen model wilt weergeven,

  1. Navigeer naar de pagina Modellen en selecteer het beste model.
  2. Selecteer het tabblad Testresultaten (preview).
  3. Selecteer de gewenste taak en bekijk het tabblad Metrische gegevens . Test het tabblad Resultaten van automatisch getest, aanbevolen model

De testvoorspellingen weergeven die worden gebruikt om de metrische testgegevens te berekenen,

  1. Navigeer naar de onderkant van de pagina en selecteer de koppeling onder Uitvoergegevensset om de gegevensset te openen.
  2. Selecteer op de pagina Gegevenssets het tabblad Verkennen om de voorspellingen van de testtaak weer te geven.
    1. U kunt het voorspellingsbestand ook bekijken/downloaden via het tabblad Uitvoer en logboeken, de map Voorspellingen uitvouwen om het predicted.csv bestand te zoeken.

U kunt het voorspellingsbestand ook bekijken/downloaden via het tabblad Uitvoer en logboeken, de map Voorspellingen uitvouwen om uw predictions.csv-bestand te vinden.

Met de modeltesttaak wordt het predictions.csv-bestand gegenereerd dat is opgeslagen in het standaardgegevensarchief dat is gemaakt met de werkruimte. Dit gegevensarchief is zichtbaar voor alle gebruikers met hetzelfde abonnement. Testtaken worden niet aanbevolen voor scenario's als een van de gegevens die worden gebruikt voor of gemaakt door de testtaak privé moet blijven.

Een bestaand geautomatiseerd ML-model testen (preview)

Belangrijk

Het testen van uw modellen met een testgegevensset om gegenereerde modellen te evalueren, is een preview-functie. Deze mogelijkheid is een experimentele preview-functie en kan op elk gewenst moment worden gewijzigd.

Nadat uw experiment is voltooid, kunt u de modellen testen die door geautomatiseerde ML voor u worden gegenereerd. Als u een ander geautomatiseerd ML-gegenereerd model wilt testen, niet het aanbevolen model, kunt u dit doen met de volgende stappen.

  1. Selecteer een bestaande geautomatiseerde ML-experimenttaak.

  2. Navigeer naar het tabblad Modellen van de taak en selecteer het voltooide model dat u wilt testen.

  3. Selecteer op de pagina Modeldetails de knop Model testen (preview) om het deelvenster Testmodel te openen.

  4. Selecteer in het deelvenster Testmodel het rekencluster en een testgegevensset die u wilt gebruiken voor uw testtaak.

  5. Selecteer de knop Testen. Het schema van de testgegevensset moet overeenkomen met de trainingsgegevensset, maar de doelkolom is optioneel.

  6. Wanneer het maken van een modeltesttaak is voltooid, wordt op de pagina Details een bericht weergegeven dat is geslaagd. Selecteer het tabblad Testresultaten om de voortgang van de taak te bekijken.

  7. Als u de resultaten van de testtaak wilt weergeven, opent u de pagina Details en volgt u de stappen in de weergaveresultaten van de sectie externe testtaak .

    Modelformulier testen

Modeluitleg (preview)

Om beter inzicht te krijgen in uw model, kunt u zien welke gegevensfuncties (onbewerkt of ontworpen) de voorspellingen van het model hebben beïnvloed met het dashboard voor modeluitleg.

Het dashboard met modeluitleg biedt een algemene analyse van het getrainde model, samen met de voorspellingen en uitleg. U kunt ook inzoomen op een afzonderlijk gegevenspunt en het belang van de afzonderlijke functie. Meer informatie over de visualisaties van het uitlegdashboard.

Om uitleg te krijgen voor een bepaald model,

  1. Selecteer op het tabblad Modellen het model dat u wilt begrijpen.

  2. Selecteer de knop Model uitleggen en geef een berekening op die kan worden gebruikt om de uitleg te genereren.

  3. Controleer het tabblad Onderliggende taken op de status.

  4. Zodra dit is voltooid, gaat u naar het tabblad Uitleg (preview) dat het dashboard uitleg bevat.

    Dashboard voor modeluitleg

Taken bewerken en verzenden (preview)

Belangrijk

De mogelijkheid om een nieuw experiment te kopiëren, bewerken en verzenden op basis van een bestaand experiment is een preview-functie. Deze mogelijkheid is een experimentele preview-functie en kan op elk gewenst moment worden gewijzigd.

In scenario's waarin u een nieuw experiment wilt maken op basis van de instellingen van een bestaand experiment, biedt geautomatiseerde ML de mogelijkheid om dit te doen met de knop Bewerken en verzenden in de gebruikersinterface van studio.

Deze functionaliteit is beperkt tot experimenten die zijn gestart vanuit de gebruikersinterface van studio en vereist dat het gegevensschema voor het nieuwe experiment overeenkomt met dat van het oorspronkelijke experiment.

Met de knop Bewerken en verzenden opent u de wizard Een nieuwe geautomatiseerde ML-taak maken met de vooraf ingevulde gegevens, berekenings- en experimentinstellingen. U kunt elk formulier doorlopen en selecties zo nodig bewerken voor uw nieuwe experiment.

Uw model implementeren

Zodra u het beste model hebt gevonden, is het tijd om dit te implementeren als een webservice, om nieuwe gegevens te voorspellen.

Tip

Als u een model wilt implementeren dat is gegenereerd via het automl pakket met de Python SDK, moet u uw model registreren bij de werkruimte.

Zodra u het model hebt geregistreerd, zoekt u het in de studio door Modellen in het linkerdeelvenster te selecteren. Zodra u het model hebt geopend, kunt u de knop Implementeren boven aan het scherm selecteren en vervolgens de instructies volgen zoals beschreven in stap 2 van de sectie Uw model implementeren .

Geautomatiseerde ML helpt u bij het implementeren van het model zonder code te schrijven:

  1. U hebt een aantal opties voor implementatie.

    • Optie 1: Het beste model implementeren op basis van de metrische criteria die u hebt gedefinieerd.

      1. Nadat het experiment is voltooid, gaat u naar de bovenliggende taakpagina door Taak 1 boven aan het scherm te selecteren.
      2. Selecteer het model dat wordt vermeld in de sectie Best model summary .
      3. Selecteer Implementeren linksboven in het venster.
    • Optie 2: Een specifieke model-iteratie implementeren vanuit dit experiment.

      1. Selecteer het gewenste model op het tabblad Modellen
      2. Selecteer Implementeren linksboven in het venster.
  2. Vul het deelvenster Model implementeren in.

    Veld Waarde
    Naam Voer een unieke naam in voor uw implementatie.
    Description Voer een beschrijving in om beter te bepalen waarvoor deze implementatie is bedoeld.
    Rekentype Selecteer het type eindpunt dat u wilt implementeren: Azure Kubernetes Service (AKS) of Azure Container Instance (ACI).
    Naam berekening Alleen van toepassing op AKS: Selecteer de naam van het AKS-cluster waarnaar u wilt implementeren.
    Verificatie inschakelen Selecteer deze optie om verificatie op basis van tokens of sleutels toe te staan.
    Aangepaste implementatie-assets gebruiken Schakel deze functie in als u uw eigen scorescript en omgevingsbestand wilt uploaden. Anders biedt geautomatiseerde ML deze assets standaard voor u. Meer informatie over scorescripts.

    Belangrijk

    Bestandsnamen moeten kleiner zijn dan 32 tekens en moeten beginnen en eindigen met alfanumerieke tekens. De rest van de naam mag streepjes, onderstrepingstekens, punten en alfanumerieke tekens bevatten. Spaties zijn niet toegestaan.

    Het menu Geavanceerd biedt standaard implementatiefuncties, zoals gegevensverzameling, en instellingen voor het gebruik van resources. Als u deze standaardwaarden wilt overschrijven, kunt u dit doen in dit menu.

  3. Selecteer Implementeren. Implementatie duurt ongeveer 20 minuten. Zodra de implementatie is gestart, wordt het tabblad Overzicht van model weergegeven. U kunt de voortgang van de implementatie bekijken in de sectie Implementatiestatus.

U hebt nu een operationele webservice om voorspellingen te genereren. U kunt de voorspellingen testen door de service te doorzoeken via Ondersteuning voor ingebouwde Azure Machine Learning van Power BI.

Volgende stappen