Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
VAN TOEPASSING OP:
Azure CLI ml-extensie v1
VAN TOEPASSING OP:
Azure Machine Learning SDK v1 voor Python
Belangrijk
Dit artikel biedt informatie over het gebruik van de Azure Machine Learning SDK v1. SDK v1 is vanaf 31 maart 2025 afgeschaft. Ondersteuning voor het zal eindigen op 30 juni 2026. U kunt SDK v1 tot die datum installeren en gebruiken. Uw bestaande werkstromen met SDK v1 blijven werken na de einddatum van de ondersteuning. Ze kunnen echter worden blootgesteld aan beveiligingsrisico's of incompatibiliteit door wijzigingen in de architectuur van het product.
We raden aan dat u overstapt naar SDK v2 vóór 30 juni 2026. Zie Wat is Azure Machine Learning CLI en Python SDK v2? en de SDK v2-verwijzing voor meer informatie over SDK v2.
Met Azure Machine Learning kunt u eenvoudig verbinding maken met uw gegevens in de cloud. Het biedt een abstractielaag over de onderliggende opslagservice, zodat u veilig toegang hebt tot en met uw gegevens kunt werken zonder dat u code hoeft te schrijven die specifiek is voor uw opslagtype. Azure Machine Learning biedt ook deze gegevensmogelijkheden:
- Interoperabiliteit met Pandas en Spark DataFrames
- Versiebeheer en tracering van gegevensherkomst
- Gegevens labelen
- Bewaking van gegevensafwijking
Gegevenswerkstroom
Als u de gegevens in uw cloudopslagoplossing wilt gebruiken, gebruikt u deze werkstroom voor gegevenslevering. In de werkstroom wordt ervan uitgegaan dat u een Azure-opslagaccount en -gegevens hebt in een azure-cloudopslagservice.
Maak een Azure Machine Learning-gegevensarchief om verbindingsgegevens op te slaan met uw Azure-opslag.
Maak vanuit dat gegevensarchief een Azure Machine Learning-gegevensset om te verwijzen naar een specifiek bestand of bestanden in uw onderliggende opslag.
Als u die gegevensset in uw machine learning-experiment wilt gebruiken, kunt u een van beide gebruiken
Koppel de gegevensset aan het rekendoel van uw experiment voor modeltraining
OF
Gebruik de gegevensset rechtstreeks in Azure Machine Learning-oplossingen, bijvoorbeeld geautomatiseerde machine learning-experimentuitvoeringen (geautomatiseerde ML), machine learning-pijplijnen of de Azure Machine Learning-ontwerpfunctie.
Maak gegevenssetmonitors voor uw modeluitvoergegevensset om gegevensdrift te detecteren.
Voor gedetecteerde gegevensdrift werkt u uw invoergegevensset bij en moet u het model dienovereenkomstig opnieuw trainen.
In deze schermopname ziet u de aanbevolen werkstroom:
Verbinding maken met opslag met gegevensarchieven
Azure Machine Learning-gegevensarchieven hosten veilig uw gegevensopslagverbindingsgegevens in Azure, dus u hoeft die informatie niet in uw scripts te plaatsen. Zie Een gegevensarchief registreren en maken voor meer informatie over het maken van verbinding met een opslagaccount en gegevenstoegang in uw onderliggende opslagservice.
U kunt deze ondersteunde Azure-opslagservices in de cloud registreren als gegevensarchieven:
- Azure Blob-container
- Azure-bestandsshare
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL-database
- Azure-database voor PostgreSQL
- Databricks-bestandssysteem
- Azure-database voor MySQL
Aanbeveling
U kunt gegevensarchieven maken met verificatie op basis van referenties voor toegang tot opslagservices, zoals een service-principal of een SAS-token (Shared Access Signature). Gebruikers met lezertoegang tot de werkruimte hebben toegang tot deze referenties.
Als dit een probleem is, raadpleegt u een gegevensarchief maken dat gebruikmaakt van op identiteit gebaseerde gegevenstoegang voor meer informatie over verbindingen met opslagservices.
Referentiegegevens in opslag met gegevenssets
Azure Machine Learning-gegevenssets zijn geen kopieën van uw gegevens. Het maken van de gegevensset zelf maakt een verwijzing naar de gegevens in de opslagservice, samen met een kopie van de metagegevens.
Omdat gegevenssets lazily worden geëvalueerd en de gegevens op de bestaande locatie blijven staan, kunt u
- Er worden geen extra opslagkosten in rekening gebracht
- Riskeer geen onbedoelde wijzigingen in uw oorspronkelijke gegevensbronnen
- Prestatiesnelheden van ML-werkstromen verbeteren
Als u wilt communiceren met uw gegevens in de opslag, maakt u een gegevensset om uw gegevens te verpakken in een verbruiksobject voor machine learning-taken. Registreer de gegevensset in uw werkruimte om deze te delen en opnieuw te gebruiken in verschillende experimenten zonder complexiteit van gegevensopname.
U kunt gegevenssets maken op basis van lokale bestanden, openbare URL's, Azure Open Datasets of Azure-opslagservices via gegevensarchieven.
Er zijn twee typen gegevenssets:
Een FileDataset verwijst naar één of meerdere bestanden in uw gegevensarchieven of openbare URL's. Als uw gegevens al zijn opgeschoond en klaar zijn voor trainingsexperimenten, kunt u bestanden downloaden of koppelen waarnaar wordt verwezen door FileDatasets naar uw rekendoel.
Een TabularDataset vertegenwoordigt gegevens in tabelvorm door het opgegeven bestand of de opgegeven lijst met bestanden te parseren. U kunt een TabularDataset laden in een pandas of Spark DataFrame voor verdere manipulatie en reiniging. Voor een volledige lijst met gegevensindelingen waaruit u TabularDatasets kunt maken, gaat u naar de klasse TabularDatasetFactory.
Deze resources bieden meer informatie over de mogelijkheden van gegevenssets:
- Herkomst van gegevenssets versie en bijhouden
- Uw gegevensset bewaken om te helpen bij detectie van gegevensdrift
Werken met uw gegevens
Met gegevenssets kunt u machine learning-taken uitvoeren via naadloze integratie met Azure Machine Learning-functies.
- Een gegevenslabelproject maken
- Machine Learning-modellen trainen:
- Toegang tot gegevenssets voor scoren met batchdeductie in machine learning-pijplijnen
- Een gegevenssetmonitor instellen voor detectie van gegevensdrift
Gegevens labelen met projecten voor gegevenslabels
Het labelen van grote hoeveelheden gegevens in machine learning-projecten kan een uitdaging worden. Projecten die betrekking hebben op een Computer Vision-onderdeel, zoals afbeeldingsclassificatie of objectdetectie, vereisen vaak duizenden afbeeldingen en bijbehorende labels.
Azure Machine Learning biedt een centrale locatie voor het maken, beheren en bewaken van labelprojecten. Met labelprojecten kunt u de gegevens, labels en teamleden coördineren, zodat u de labeltaken efficiënter kunt beheren. Momenteel ondersteunde taken zijn afbeeldingsclassificatie, multilabel of multiklasse, en objectidentificatie met behulp van gebonden vakken.
Maak een afbeeldingslabelproject of tekstlabelproject en voer een gegevensset uit voor gebruik in machine learning-experimenten.
Modelprestaties bewaken met gegevensdrift
In de context van machine learning omvat gegevensdrift de wijziging in modelinvoergegevens die leiden tot een verslechtering van de modelprestaties. Het is een belangrijke reden dat modelnauwkeurigheid in de loop van de tijd verslechtert en gegevensdriftbewaking helpt bij het detecteren van prestatieproblemen met modellen.
Ga naar Een gegevenssetmonitor maken voor meer informatie over het detecteren en waarschuwen van gegevensdrift op nieuwe gegevens in een gegevensset.
Volgende stappen
- Een gegevensset maken in Azure Machine Learning-studio of met de Python SDK
- Trainingsvoorbeelden voor gegevenssets uitproberen met onze voorbeeldnotebooks