Gegevens in Azure Machine Learning v1

VAN TOEPASSING OP: Azure CLI ml-extensie v1

VAN TOEPASSING OP:Azure Machine Learning SDK v1 voor Python

Belangrijk

Dit artikel biedt informatie over het gebruik van de Azure Machine Learning SDK v1. SDK v1 is vanaf 31 maart 2025 afgeschaft. Ondersteuning voor het zal eindigen op 30 juni 2026. U kunt SDK v1 tot die datum installeren en gebruiken. Uw bestaande werkstromen met SDK v1 blijven werken na de einddatum van de ondersteuning. Ze kunnen echter worden blootgesteld aan beveiligingsrisico's of incompatibiliteit door wijzigingen in de architectuur van het product.

We raden aan dat u overstapt naar SDK v2 vóór 30 juni 2026. Zie Wat is Azure Machine Learning CLI en Python SDK v2? en de SDK v2-verwijzing voor meer informatie over SDK v2.

Met Azure Machine Learning kunt u eenvoudig verbinding maken met uw gegevens in de cloud. Het biedt een abstractielaag over de onderliggende opslagservice, zodat u veilig toegang hebt tot en met uw gegevens kunt werken zonder dat u code hoeft te schrijven die specifiek is voor uw opslagtype. Azure Machine Learning biedt ook deze gegevensmogelijkheden:

Interoperabiliteit met Pandas en Spark DataFrames
Versiebeheer en tracering van gegevensherkomst
Gegevens labelen
Bewaking van gegevensafwijking

Gegevenswerkstroom

Als u de gegevens in uw cloudopslagoplossing wilt gebruiken, gebruikt u deze werkstroom voor gegevenslevering. In de werkstroom wordt ervan uitgegaan dat u een Azure-opslagaccount en -gegevens hebt in een azure-cloudopslagservice.

Maak een Azure Machine Learning-gegevensarchief om verbindingsgegevens op te slaan met uw Azure-opslag.
Maak vanuit dat gegevensarchief een Azure Machine Learning-gegevensset om te verwijzen naar een specifiek bestand of bestanden in uw onderliggende opslag.
Als u die gegevensset in uw machine learning-experiment wilt gebruiken, kunt u een van beide gebruiken
- Koppel de gegevensset aan het rekendoel van uw experiment voor modeltraining
  
  OF
- Gebruik de gegevensset rechtstreeks in Azure Machine Learning-oplossingen, bijvoorbeeld geautomatiseerde machine learning-experimentuitvoeringen (geautomatiseerde ML), machine learning-pijplijnen of de Azure Machine Learning-ontwerpfunctie.
Maak gegevenssetmonitors voor uw modeluitvoergegevensset om gegevensdrift te detecteren.
Voor gedetecteerde gegevensdrift werkt u uw invoergegevensset bij en moet u het model dienovereenkomstig opnieuw trainen.

In deze schermopname ziet u de aanbevolen werkstroom:

Verbinding maken met opslag met gegevensarchieven

Azure Machine Learning-gegevensarchieven hosten veilig uw gegevensopslagverbindingsgegevens in Azure, dus u hoeft die informatie niet in uw scripts te plaatsen. Zie Een gegevensarchief registreren en maken voor meer informatie over het maken van verbinding met een opslagaccount en gegevenstoegang in uw onderliggende opslagservice.

U kunt deze ondersteunde Azure-opslagservices in de cloud registreren als gegevensarchieven:

Azure Blob-container
Azure-bestandsshare
Azure Data Lake
Azure Data Lake Gen2
Azure SQL-database
Azure-database voor PostgreSQL
Databricks-bestandssysteem
Azure-database voor MySQL

Aanbeveling

U kunt gegevensarchieven maken met verificatie op basis van referenties voor toegang tot opslagservices, zoals een service-principal of een SAS-token (Shared Access Signature). Gebruikers met lezertoegang tot de werkruimte hebben toegang tot deze referenties.

Als dit een probleem is, raadpleegt u een gegevensarchief maken dat gebruikmaakt van op identiteit gebaseerde gegevenstoegang voor meer informatie over verbindingen met opslagservices.

Referentiegegevens in opslag met gegevenssets

Azure Machine Learning-gegevenssets zijn geen kopieën van uw gegevens. Het maken van de gegevensset zelf maakt een verwijzing naar de gegevens in de opslagservice, samen met een kopie van de metagegevens.

Omdat gegevenssets lazily worden geëvalueerd en de gegevens op de bestaande locatie blijven staan, kunt u

Er worden geen extra opslagkosten in rekening gebracht
Riskeer geen onbedoelde wijzigingen in uw oorspronkelijke gegevensbronnen
Prestatiesnelheden van ML-werkstromen verbeteren

Als u wilt communiceren met uw gegevens in de opslag, maakt u een gegevensset om uw gegevens te verpakken in een verbruiksobject voor machine learning-taken. Registreer de gegevensset in uw werkruimte om deze te delen en opnieuw te gebruiken in verschillende experimenten zonder complexiteit van gegevensopname.

U kunt gegevenssets maken op basis van lokale bestanden, openbare URL's, Azure Open Datasets of Azure-opslagservices via gegevensarchieven.

Er zijn twee typen gegevenssets:

Een FileDataset verwijst naar één of meerdere bestanden in uw gegevensarchieven of openbare URL's. Als uw gegevens al zijn opgeschoond en klaar zijn voor trainingsexperimenten, kunt u bestanden downloaden of koppelen waarnaar wordt verwezen door FileDatasets naar uw rekendoel.
Een TabularDataset vertegenwoordigt gegevens in tabelvorm door het opgegeven bestand of de opgegeven lijst met bestanden te parseren. U kunt een TabularDataset laden in een pandas of Spark DataFrame voor verdere manipulatie en reiniging. Voor een volledige lijst met gegevensindelingen waaruit u TabularDatasets kunt maken, gaat u naar de klasse TabularDatasetFactory.

Deze resources bieden meer informatie over de mogelijkheden van gegevenssets:

Herkomst van gegevenssets versie en bijhouden
Uw gegevensset bewaken om te helpen bij detectie van gegevensdrift

Werken met uw gegevens

Met gegevenssets kunt u machine learning-taken uitvoeren via naadloze integratie met Azure Machine Learning-functies.

Een gegevenslabelproject maken
Machine Learning-modellen trainen:
Toegang tot gegevenssets voor scoren met batchdeductie in machine learning-pijplijnen
Een gegevenssetmonitor instellen voor detectie van gegevensdrift

Gegevens labelen met projecten voor gegevenslabels

Het labelen van grote hoeveelheden gegevens in machine learning-projecten kan een uitdaging worden. Projecten die betrekking hebben op een Computer Vision-onderdeel, zoals afbeeldingsclassificatie of objectdetectie, vereisen vaak duizenden afbeeldingen en bijbehorende labels.

Azure Machine Learning biedt een centrale locatie voor het maken, beheren en bewaken van labelprojecten. Met labelprojecten kunt u de gegevens, labels en teamleden coördineren, zodat u de labeltaken efficiënter kunt beheren. Momenteel ondersteunde taken zijn afbeeldingsclassificatie, multilabel of multiklasse, en objectidentificatie met behulp van gebonden vakken.

Maak een afbeeldingslabelproject of tekstlabelproject en voer een gegevensset uit voor gebruik in machine learning-experimenten.

Modelprestaties bewaken met gegevensdrift

In de context van machine learning omvat gegevensdrift de wijziging in modelinvoergegevens die leiden tot een verslechtering van de modelprestaties. Het is een belangrijke reden dat modelnauwkeurigheid in de loop van de tijd verslechtert en gegevensdriftbewaking helpt bij het detecteren van prestatieproblemen met modellen.

Ga naar Een gegevenssetmonitor maken voor meer informatie over het detecteren en waarschuwen van gegevensdrift op nieuwe gegevens in een gegevensset.

Volgende stappen

Een gegevensset maken in Azure Machine Learning-studio of met de Python SDK
Trainingsvoorbeelden voor gegevenssets uitproberen met onze voorbeeldnotebooks

Feedback

Is deze pagina nuttig?

Last updated on 2025-11-13