Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Dit artikel biedt informatie over het gebruik van de Azure Machine Learning SDK v1. SDK v1 is vanaf 31 maart 2025 afgeschaft. Ondersteuning voor het zal eindigen op 30 juni 2026. U kunt SDK v1 tot die datum installeren en gebruiken.
We raden aan dat u overstapt naar SDK v2 vóór 30 juni 2026. Zie Wat is Azure Machine Learning CLI en Python SDK v2? en de SDK v2-verwijzing voor meer informatie over SDK v2.
In dit artikel wordt uitgelegd hoe u de Azure Machine Learning-ontwerpfunctie gebruikt om een lineair regressiemodel te trainen waarmee de prijzen van auto's worden voorspeld. Deze zelfstudie is deel één van een serie van twee.
Zie Wat is Azure Machine Learning Designer? voor meer informatie over de designer.
Notitie
Designer ondersteunt twee soorten onderdelen: klassieke vooraf gebouwde onderdelen (v1) en aangepaste onderdelen (v2). Deze twee typen onderdelen zijn NIET compatibel.
Klassieke vooraf gebouwde onderdelen zijn voornamelijk bedoeld voor gegevensverwerking en traditionele machine learning-taken, zoals regressie en classificatie. Dit type onderdeel wordt nog steeds ondersteund, maar er worden geen nieuwe onderdelen toegevoegd.
Met aangepaste onderdelen kunt u uw eigen code verpakken als onderdeel. Het biedt ondersteuning voor het delen van onderdelen in werkruimten en naadloze creatie in Studio-, CLI v2- en SDK v2-interfaces.
Voor nieuwe projecten raden we u ten zeerste aan aangepaste onderdelen te gebruiken, die compatibel zijn met Azure Machine Learning V2 en nieuwe updates blijven ontvangen.
Dit artikel is van toepassing op klassieke vooraf samengestelde onderdelen en is niet compatibel met CLI v2 en SDK v2.
In deze handleiding leer je hoe je:
- Een nieuwe pipeline maken.
- Gegevens importeren.
- Bereid gegevens voor.
- Een machine learning-model trainen.
- Een machine learning-model evalueren.
In deel twee van de zelfstudie implementeert u uw model als een realtime deductie-eindpunt om de prijs van een auto te voorspellen op basis van technische specificaties die u verzendt.
Notitie
Als u een voltooide versie van deze zelfstudie als voorbeeldpijplijn wilt bekijken, raadpleegt u Regressie gebruiken om de prijzen van auto's te voorspellen met Azure Machine Learning Designer.
Belangrijk
Als u geen grafische elementen ziet die in dit document worden vermeld, zoals knoppen in studio of ontwerper, hebt u mogelijk niet het juiste machtigingsniveau voor de werkruimte. Neem contact op met de beheerder van uw Azure-abonnement om te controleren of u het juiste toegangsniveau hebt gekregen. Zie Gebruikers en rollen beherenvoor meer informatie.
Een nieuwe pipeline maken
Met Azure Machine Learning-pijplijnen kunnen meerdere stappen voor machine learning en gegevensverwerking in één resource worden georganiseerd. Met pijplijnen kunt u complexe machine learning-workflows voor verschillende projecten en gebruikers organiseren, beheren en opnieuw gebruiken.
Als u een Azure Machine Learning-pijplijn wilt maken, hebt u een Azure Machine Learning-werkruimte nodig. In deze sectie leert u hoe u deze beide resources maakt.
Een nieuwe werkruimte maken
Als u de ontwerpfunctie wilt gebruiken, hebt u een Azure Machine Learning-werkruimte nodig. De werkruimte is de resource op het hoogste niveau voor Azure Machine Learning. Het biedt een gecentraliseerde plek om te werken met alle artefacten die u in Azure Machine Learning maakt. Zie Werkruimtebronnen maken voor meer informatie over het maken van een werkruimte.
Notitie
Als uw werkruimte gebruikmaakt van een virtueel netwerk, zijn er aanvullende configuratiestappen nodig om de ontwerpfunctie te gebruiken. Zie Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk voor meer informatie.
Maak de pijplijn
Meld u aan bij Azure Machine Learning Studio en selecteer de werkruimte die u wilt gebruiken.
Selecteer Designer in het zijbalkmenu. Kies onder Klassiek vooraf samengestelde optie Een nieuwe pijplijn maken met behulp van klassieke vooraf gedefinieerde onderdelen.
Selecteer het potloodpictogram naast de automatisch gegenereerde naam van het pijplijnconcept en wijzig de naam ervan in Autoprijsvoorspelling. De naam hoeft niet uniek te zijn.
Gegevens importeren
Er zijn diverse voorbeeldgegevenssets meegeleverd in de ontwerpfunctie waarmee u kunt experimenteren. Voor deze zelfstudie gebruikt u Automobile price data (Raw).
Links van het pijplijncanvas bevindt zich een palet met gegevenssets en onderdelen. Selecteer Voorbeeldgegevens van onderdeel>.
Selecteer de gegevensset Automobile price data (Raw) en sleep deze naar het canvas.
De gegevens visualiseren
U kunt de gegevens visualiseren voor meer informatie over de gegevensset die u gebruikt.
Klik met de rechtermuisknop op de autoprijsgegevens (Raw) en selecteer Voorbeeldgegevens.
Selecteer de verschillende kolommen in het gegevensvenster om informatie over elke kolom weer te geven.
Elke auto wordt weergegeven als een rij. De variabelen die aan elke auto zijn gekoppeld, worden weergegeven als kolommen. Er zijn 205 rijen en 26 kolommen in deze gegevensset.
Gegevens voorbereiden
Voor gegevenssets moet u doorgaans enige verwerking vooraf uitvoeren voordat u de analyse kunt uitvoeren. U hebt wellicht al gezien dat er een aantal waarden ontbreekt toen u de gegevensset inspecteerde. Deze ontbrekende waarden moeten worden opgeschoond, zodat de gegevens correct kunnen worden geanalyseerd.
Een kolom verwijderen
Wanneer u een model traint, moet u iets doen aan de gegevens die ontbreken. In deze gegevensset ontbreken veel waarden in de kolom normalized-losses , dus sluit u die kolom helemaal uit van het model.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Kolommen selecteren in gegevensset .
Sleep het onderdeel Kolommen selecteren in gegevensset naar het canvas. Verwijder het onderdeel onder het gegevenssetonderdeel.
Verbind de gegevensset Automobile price data (Raw) met het onderdeel Select Columns in Dataset . Sleep vanaf de uitvoerpoort van de gegevensset, de kleine cirkel onder aan de gegevensset op het canvas, naar de invoerpoort van Select Columns in Dataset. Dit is de kleine cirkel boven aan het onderdeel.
Aanbeveling
U maakt een gegevensstroom via uw pijplijn wanneer u de uitvoerpoort van het ene onderdeel verbindt met een invoerpoort van een ander onderdeel.
Selecteer het onderdeel Kolommen selecteren in gegevensset .
Selecteer het pijlpictogram onder De pijplijninterface rechts van het canvas om het detailvenster van het onderdeel te openen. U kunt ook dubbelklikken op het onderdeel Kolommen selecteren in gegevensset om het detailvenster te openen.
Selecteer Kolom bewerken rechts van het deelvenster.
Vouw de vervolgkeuzelijst Kolomnamen naast Invoegen uit en selecteer Alle kolommen.
Selecteer de + om een nieuwe regel toe te voegen.
Bij de vervolgkeuzemenu's selecteert u Uitsluiten en Kolomnamen.
Voer normalized-losses in het tekstvak in.
Rechtsonder selecteert u Opslaan om de kolomselector te sluiten.
"In het deelvenster Details van het onderdeel Selecteer kolommen in gegevensset, vouw Knooppuntinformatie uit."
Selecteer het tekstvak Opmerking en voer genormaliseerde verliezen uitsluiten in.
Opmerkingen worden weergegeven in de grafiek om u te helpen uw pijplijn te organiseren.
Ontbrekende gegevens opschonen
Er ontbreken nog steeds waarden in uw gegevensset nadat u de kolom normalized-losses hebt verwijderd. U kunt de resterende ontbrekende gegevens verwijderen met behulp van het onderdeel Ontbrekende gegevens opschonen.
Aanbeveling
Het opschonen van de ontbrekende waarden uit invoergegevens is een vereiste voor het gebruik van de meeste onderdelen in de ontwerpfunctie.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Ontbrekende gegevens opschonen .
Sleep het onderdeel Ontbrekende gegevens opschonen naar het pijplijncanvas. Verbind deze met het onderdeel Kolommen selecteren in gegevensset .
Selecteer het onderdeel Ontbrekende gegevens opschonen.
Selecteer het pijlpictogram onder De pijplijninterface rechts van het canvas om het detailvenster van het onderdeel te openen. U kunt ook dubbelklikken op het onderdeel Ontbrekende gegevens opschonen om het detailvenster te openen.
Selecteer Kolom bewerken rechts van het deelvenster.
In het venster Kolommen die moeten worden gewist dat wordt weergegeven, vouwt u het vervolgkeuzemenu naast Invoegen uit. Selecteer Alle kolommen.
Selecteer Opslaan.
Selecteer in het detailvenster Ontbrekende gegevens opschonen onder De modus Opschonen de optie Hele rij verwijderen.
In het detailvenster van de component Ontbrekende gegevens opschonen, vouw informatie over knooppunten uit.
Selecteer het tekstvak Opmerking en voer ontbrekende waarderijen verwijderen in.
Uw pijplijn ziet er als volgt uit:
Een Machine Learning-model trainen
Nu u de onderdelen hebt om de gegevens te verwerken, kunt u de trainingsonderdelen instellen.
Omdat u de prijs wilt voorspellen, wat een getal is, gebruikt u een regressiealgoritme. In dit voorbeeld gebruikt u een lineair regressiemodel.
De gegevens splitsen
Het splitsen van gegevens is een algemene taak bij machine learning. U splitst uw gegevens op in twee afzonderlijke gegevenssets. De ene gegevensset traint het model en de andere test hoe goed het model presteert.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Split Data .
Sleep het onderdeel Split Data naar het pijplijncanvas.
Verbind de linkerpoort van het onderdeel Clean Missing Data met het onderdeel Split Data .
Belangrijk
Zorg ervoor dat de linkeruitvoerpoort van Clean Missing Data verbinding maakt met Split Data. De linkerpoort bevat de opgeschoonde gegevens. De rechterpoort bevat de genegeerde gegevens.
Selecteer het onderdeel Split Data .
Selecteer het pijlpictogram onder De pijplijninterface rechts van het canvas om het detailvenster van het onderdeel te openen. U kunt ook dubbelklikken op het onderdeel Split Data om het detailvenster te openen.
Stel in het deelvenster Gegevens splitsen de fractie van de rijen in de eerste outputdataset in op 0,7.
Met deze optie wordt 70% van de gegevens gebruikt om het model te trainen en 30% om het model te testen. De gegevensset van 70 procent is toegankelijk via de linkeruitvoerpoort. De resterende gegevens zijn beschikbaar via de juiste uitvoerpoort.
Vouw in het deelvenster Gegevens splitsenKnooppuntinformatie uit.
Selecteer het tekstvak Opmerking en voer de gegevensset splitsen in trainingsset (0.7) en testset (0.3) in.
Het model trainen
Train het model door hiervoor een gegevensset te gebruiken waarin de prijs een van de elementen is. Het algoritme bouwt een model waarmee de relatie tussen de functies en de prijs wordt uitgelegd, zoals dat uit de trainingsgegevens blijkt.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het component Lineaire regressie .
Sleep het component Linear Regression naar het pijplijncanvas.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Model trainen .
Sleep het onderdeel Train Model naar het pijplijncanvas.
Verbind de uitvoer van het component Linear Regression met de linkerinvoer van het onderdeel Train Model .
Verbind de uitvoer van de trainingsgegevens (linkerpoort) van het onderdeel Split Data met de rechterinvoer van het onderdeel Train Model .
Belangrijk
Zorg ervoor dat de linkeruitvoerpoort van Split Data verbinding maakt met Train Model. De linkerpoort bevat de trainingsset. De rechterpoort bevat de testset.
Selecteer het onderdeel Train Model .
Selecteer het pijlpictogram onder Pijplijninstellingen rechts van het canvas om het detailvenster van het onderdeel te openen. U kunt ook dubbelklikken op het onderdeel Model trainen om het detailvenster te openen.
Selecteer Kolom bewerken rechts van het deelvenster.
Vouw in het venster Labelkolom dat wordt weergegeven de vervolgkeuzelijst uit en selecteer Kolomnamen.
In het tekstvak voert u price in om de waarde op te geven die door uw model gaat worden voorspeld.
Belangrijk
Zorg ervoor dat u de kolomnaam exact opgeeft. Gebruik geen hoofdletter voor prijs.
Uw pijplijn ziet er als volgt uit:
Het onderdeel Score Model toevoegen
Nadat u uw model hebt getraind aan de hand van 70% van de gegevens, kunt u dit gebruiken om de overige 30% van een score te voorzien, om te zien hoe goed uw model werkt.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Score Model .
Sleep het onderdeel Score Model naar het pijplijncanvas.
Verbind de uitvoer van het onderdeel Train Model met de linkerinvoerpoort van Score Model. Verbind de uitvoer van de testgegevens (rechterpoort) van het onderdeel Split Data met de juiste invoerpoort van scoremodel.
Het onderdeel Evaluate Model toevoegen
Gebruik het onderdeel Evaluate Model om te evalueren hoe goed uw model de testgegevensset heeft beoordeeld.
Selecteer Component in het palet met gegevenssets en onderdelen links van het canvas en zoek naar het onderdeel Evaluate Model .
Sleep het onderdeel Evaluate Model naar het pijplijncanvas.
Verbind de uitvoer van het onderdeel Score Model met de linkerinvoer van Evaluate Model.
De uiteindelijke pijplijn ziet er als volgt uit:
Pijplijn verzenden
Selecteer Configureren en verzenden in de bovenhoek om de pijplijn te verzenden.
Nadat de installatiewizard wordt weergegeven, volgt u de stappen van de wizard om de pijplijntaak te verzenden.
In Basisbeginselen kunt u het experiment, de weergavenaam van de taak, de taakbeschrijving, enzovoort configureren.
In Invoer en uitvoer kunt u waarde toewijzen aan de invoer en uitvoer die worden gepromoveerd naar pijplijnniveau. Deze is leeg in dit voorbeeld omdat er geen invoer of uitvoer naar pijplijnniveau is gepromoot.
In runtime-instellingen kunt u het standaardgegevensarchief en de standaard rekenkracht voor de pijplijn configureren. Dit is het standaardgegevensarchief en de berekening voor alle onderdelen in de pijplijn. Als u echter expliciet een ander reken- of gegevensarchief instelt voor een onderdeel, respecteert het systeem de instelling op onderdeelniveau. Anders wordt de standaardwaarde gebruikt.
De stap Beoordelen en verzenden is de laatste stap om alle instellingen te controleren voordat u verzendt. De wizard onthoudt uw laatste configuratie als u de pijplijn ooit verzendt.
Nadat u de pijplijntaak hebt verzonden, ziet u bovenaan een bericht met een koppeling naar de taakdetails. U kunt deze koppeling selecteren om de taakdetails te bekijken.
Gescoorde labels weergeven
Op de pagina met taakdetails kunt u de status, resultaten en logboeken van de pijplijntaak controleren.
Nadat de taak is voltooid, kunt u de resultaten van de pijplijntaak bekijken. Kijk eerst naar de voorspellingen die door het regressiemodel zijn gegenereerd.
Klik met de rechtermuisknop op het onderdeel Score Model en selecteer Voorbeeldgegevensset> scored om de uitvoer ervan weer te geven.
Hier ziet u de voorspelde prijzen en de daadwerkelijke prijzen van de testgegevens.
Modellen evalueren
Gebruik Evaluate Model om te zien hoe goed het getrainde model heeft gepresteerd met de testgegevensset.
- Klik met de rechtermuisknop op het onderdeel Model evalueren en selecteer Voorbeeld van de resultaten van de evaluatie van gegevens>om de uitvoer ervan weer te geven.
De volgende statistieken worden weergegeven voor uw model:
- Gemiddelde absolute fout (MAE): het gemiddelde van absolute fouten. Een fout is het verschil tussen de voorspelde waarde en de werkelijke waarde.
- Root Mean Squared Error (RMSE): de wortel uit het gemiddelde aan gekwadrateerde fouten voor de voorspellingen op basis van de testgegevensset.
- Relative Absolute Error: het gemiddelde aan absolute fouten ten opzichte van het absolute verschil tussen de werkelijke waarden en het gemiddelde van alle werkelijke waarden.
- Relative Squared Error: het gemiddelde aan gekwadrateerde fouten ten opzichte van het gekwadrateerde verschil tussen de werkelijke waarden en het gemiddelde van alle werkelijke waarden.
- De bepalingscoëfficiënt: ook wel bekend als de R-kwadratische waarde, geeft deze statistische meetwaarde aan hoe goed een model past bij de gegevens.
Voor elk van de foutstatistieken geldt: hoe kleiner hoe beter. Een lagere waarde geeft aan dat de voorspellingen dichter bij de daadwerkelijke waarden liggen. Hoe dichter de determinatiecoëfficiënt bij één (1,0) ligt, hoe beter de voorspellingen.
Resources opschonen
Sla deze sectie over als u door wilt gaan met deel 2 van de zelfstudie Modellen implementeren.
Belangrijk
U kunt de resources die u hebt gemaakt, gebruiken als vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.
Alles verwijderen
Als u niets wilt gebruiken dat u hebt gemaakt, kunt u de hele resourcegroep verwijderen zodat er geen kosten voor in rekening worden gebracht.
Selecteer resourcegroepen onder Azure-services in de Azure-portal.
Selecteer de resourcegroep die u hebt gemaakt.
Selecteer Resourcegroep verwijderen.
Als u de resource groep verwijdert, worden ook alle resources verwijderd die u in de ontwerpfunctie hebt gemaakt.
Afzonderlijke assets verwijderen
In de ontwerpfunctie waar u uw experiment hebt gemaakt, verwijdert u afzonderlijke assets door ze te selecteren en vervolgens de knop Verwijderen te selecteren.
Het rekendoel dat u hier hebt gemaakt, wordt, wanneer het niet wordt gebruikt, automatisch geschaald naar nul knooppunten. Deze actie wordt uitgevoerd om de kosten te minimaliseren. Als u het rekendoel wilt verwijderen, voert u de volgende stappen uit:
Als u een gegevensset wilt verwijderen, gaat u naar het opslagaccount via Azure Portal of Azure Storage Explorer en verwijdert u de assets handmatig.
Volgende stap
In deel 2 leert u hoe u uw model kunt implementeren als een realtime-eindpunt.