Delen via


Gegevens in Azure Machine Learning v1

VAN TOEPASSING OP: Azure CLI ml-extensie v1

VAN TOEPASSING OP: Python SDK azureml v1

Met Azure Machine Learning kunt u eenvoudig verbinding maken met uw gegevens in de cloud. Het biedt een abstractielaag over de onderliggende opslagservice, zodat u veilig toegang hebt tot en met uw gegevens kunt werken zonder dat u code hoeft te schrijven die specifiek is voor uw opslagtype. Azure Machine Learning biedt ook deze gegevensmogelijkheden:

  • Interoperabiliteit met Pandas en Spark DataFrames
  • Versiebeheer en tracering van gegevensherkomst
  • Gegevens labelen
  • Bewaking van gegevensafwijking

Gegevenswerkstroom

Als u de gegevens in uw cloudopslagoplossing wilt gebruiken, raden we u aan deze werkstroom voor gegevenslevering te gebruiken. In de werkstroom wordt ervan uitgegaan dat u een Azure-opslagaccount en gegevens in een azure-cloudopslagservice hebt.

  1. Een Azure Machine Learning-gegevensarchief maken om verbindingsgegevens op te slaan met uw Azure-opslag

  2. Maak vanuit dat gegevensarchief een Azure Machine Learning-gegevensset om te verwijzen naar een specifiek bestand of een specifiek bestand in uw onderliggende opslag

  3. Als u die gegevensset in uw machine learning-experiment wilt gebruiken, kunt u een van beide gebruiken

    • Koppel de gegevensset aan het rekendoel van uw experiment voor modeltraining

      OF

    • Gebruik de gegevensset rechtstreeks in Azure Machine Learning-oplossingen, bijvoorbeeld geautomatiseerde machine learning-experimentuitvoeringen (geautomatiseerde ML), machine learning-pijplijnen of de Azure Machine Learning-ontwerpfunctie.

  4. Gegevenssetmonitors maken voor uw modeluitvoergegevensset om gegevensdrift te detecteren

  5. Voor gedetecteerde gegevensdrift werkt u uw invoergegevensset bij en moet u het model dienovereenkomstig opnieuw trainen

In deze schermopname ziet u de aanbevolen werkstroom:

Schermopname van de Azure Storage-service, die naar een gegevensarchief stroomt en vervolgens naar een gegevensset.

Verbinding maken met opslag met gegevensarchieven

Azure Machine Learning-gegevensarchieven hosten veilig uw gegevensopslagverbindingsgegevens in Azure, dus u hoeft die informatie niet in uw scripts te plaatsen. Ga naar Registreren en een gegevensarchief maken voor meer informatie over het maken van verbinding met een opslagaccount en gegevenstoegang in uw onderliggende opslagservice.

Deze ondersteunde azure-cloudopslagservices kunnen worden geregistreerd als gegevensarchieven:

  • Azure Blob Container
  • Azure-bestandsshare
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL-database
  • Azure Database for PostgreSQL
  • Databricks-bestandssysteem
  • Azure Database for MySQL

Tip

U kunt gegevensarchieven maken met verificatie op basis van referenties voor toegang tot opslagservices, bijvoorbeeld een service-principal of een SAS-token (Shared Access Signature). Gebruikers met lezertoegang tot de werkruimte hebben toegang tot deze referenties.

Als dit een probleem is, gaat u naar een gegevensarchief maken dat gebruikmaakt van op identiteit gebaseerde gegevenstoegang voor meer informatie over verbindingen met opslagservices.

Referentiegegevens in opslag met gegevenssets

Azure Machine Learning-gegevenssets zijn geen kopieën van uw gegevens. Het maken van de gegevensset zelf maakt een verwijzing naar de gegevens in de opslagservice, samen met een kopie van de metagegevens.

Omdat gegevenssets lazily worden geëvalueerd en de gegevens op de bestaande locatie blijven staan, kunt u

  • Er worden geen extra opslagkosten in rekening gebracht
  • Riskeer geen onbedoelde wijzigingen in uw oorspronkelijke gegevensbronnen
  • Prestatiesnelheden van ML-werkstromen verbeteren

Als u wilt communiceren met uw gegevens in de opslag, maakt u een gegevensset om uw gegevens te verpakken in een verbruiksobject voor machine learning-taken. Registreer de gegevensset in uw werkruimte om deze te delen en opnieuw te gebruiken in verschillende experimenten zonder complexiteit van gegevensopname.

U kunt gegevenssets maken op basis van lokale bestanden, openbare URL's, Azure Open Datasets of Azure-opslagservices via gegevensarchieven.

Er zijn twee typen gegevenssets:

  • Een FileDataset verwijst naar één of meerdere bestanden in uw gegevensarchieven of openbare URL's. Als uw gegevens al zijn opgeschoond en klaar zijn voor trainingsexperimenten, kunt u bestanden downloaden of koppelen waarnaar wordt verwezen door FileDatasets naar uw rekendoel

  • Een TabularDataset vertegenwoordigt gegevens in tabelvorm door het opgegeven bestand of de opgegeven lijst met bestanden te parseren. U kunt een TabularDataset laden in een pandas of Spark DataFrame voor verdere manipulatie en reiniging. Voor een volledige lijst met gegevensindelingen waaruit u TabularDatasets kunt maken, gaat u naar de klasse TabularDatasetFactory

Deze resources bieden meer informatie over de mogelijkheden van gegevenssets:

Werken met uw gegevens

Met gegevenssets kunt u machine learning-taken uitvoeren via naadloze integratie met Azure Machine Learning-functies.

Gegevens labelen met projecten voor gegevenslabels

Het labelen van grote hoeveelheden gegevens in machine learning-projecten kan hoofdpijn veroorzaken. Projecten die betrekking hebben op een Computer Vision-onderdeel, zoals afbeeldingsclassificatie of objectdetectie, vereisen vaak duizenden afbeeldingen en bijbehorende labels.

Azure Machine Learning biedt een centrale locatie voor het maken, beheren en bewaken van labelprojecten. Met labelprojecten kunt u de gegevens, labels en teamleden coördineren, zodat u de labeltaken efficiënter kunt beheren. Momenteel ondersteunde taken omvatten afbeeldingsclassificatie, meerdere labels of meerdere klassen, en objectidentificatie met behulp van gebonden vakken.

Maak een afbeeldingslabelproject of tekstlabelproject en voer een gegevensset uit voor gebruik in machine learning-experimenten.

Modelprestaties bewaken met gegevensdrift

In de context van machine learning omvat gegevensdrift de wijziging in modelinvoergegevens die leiden tot een verslechtering van de modelprestaties. Het is een belangrijke reden dat modelnauwkeurigheid in de loop van de tijd verslechtert en gegevensdriftbewaking helpt bij het detecteren van prestatieproblemen met modellen.

Ga naar Een gegevenssetmonitor maken voor meer informatie over het detecteren en waarschuwen van gegevensdrift op nieuwe gegevens in een gegevensset.

Volgende stappen