Gegevens in Azure Machine Learning v1

Artikel
05/23/2023

VAN TOEPASSING OP:Azure CLI ml-extensie v1

VAN TOEPASSING OP:Python SDK azureml v1

Met Azure Machine Learning kunt u eenvoudig verbinding maken met uw gegevens in de cloud. Het biedt een abstractielaag over de onderliggende opslagservice, zodat u uw gegevens veilig kunt openen en ermee kunt werken zonder code te hoeven schrijven die specifiek is voor uw opslagtype. Azure Machine Learning biedt ook de volgende gegevensmogelijkheden:

Interoperabiliteit met Pandas en Spark DataFrames
Versiebeheer en het bijhouden van gegevensherkomst
Gegevens labelen
Bewaking van gegevensafwijking

Gegevenswerkstroom

Wanneer u klaar bent om de gegevens in uw cloudopslagoplossing te gebruiken, raden we u aan de volgende werkstroom voor gegevenslevering te gebruiken. In deze werkstroom wordt ervan uitgegaan dat u een Azure-opslagaccount en gegevens in een cloudopslagservice in Azure hebt.

Maak een Azure Machine Learning-gegevensarchief om verbindingsgegevens op te slaan met uw Azure-opslag.
Maak vanuit dat gegevensarchief een Azure Machine Learning-gegevensset die verwijst naar een of meer specifieke bestanden in uw onderliggende opslag.
Als u die gegevensset wilt gebruiken in uw machine learning-experiment, kunt u
- Koppel deze aan het rekendoel van uw experiment voor modeltraining.
  
  OF
- Gebruik deze rechtstreeks in Azure Machine Learning-oplossingen, zoals geautomatiseerde machine learning (geautomatiseerde ML)-experimentuitvoeringen, machine learning-pijplijnen of de Azure Machine Learning-ontwerpfunctie.
Maak gegevenssetmonitors voor uw modeluitvoergegevensset om gegevensdrift te detecteren.
Als er gegevensdrift wordt gedetecteerd, werkt u uw invoergegevensset bij en moet u het model dienovereenkomstig opnieuw trainen.

In het volgende diagram ziet u een visuele demonstratie van deze aanbevolen werkstroom.

Diagram met de Azure Storage-service die in een gegevensarchief stroomt en die in een gegevensset stroomt.

Verbinding maken met opslag met gegevensarchieven

Azure Machine Learning-gegevensarchieven bewaren de verbindingsgegevens met uw gegevensopslag in Azure veilig, zodat u deze niet hoeft te codeken in uw scripts. Registreer en maak een gegevensarchief om eenvoudig verbinding te maken met uw opslagaccount en toegang te krijgen tot de gegevens in uw onderliggende opslagservice.

Ondersteunde cloudopslagservices in Azure die kunnen worden geregistreerd als gegevensarchieven:

Azure Blob Container
Azure-bestandsshare
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Databricks-bestandssysteem
Azure Database for MySQL

Tip

U kunt gegevensarchieven maken met verificatie op basis van referenties voor toegang tot opslagservices, zoals een service-principal of sas-token (Shared Access Signature). Deze referenties zijn toegankelijk voor gebruikers die lezertoegang hebben tot de werkruimte.

Als dit een probleem is, maakt u een gegevensarchief dat gebruikmaakt van op identiteit gebaseerde gegevenstoegang om verbinding te maken met opslagservices.

Referentiegegevens in opslag met gegevenssets

Azure Machine Learning-gegevenssets zijn geen kopieën van uw gegevens. Door een gegevensset te maken, maakt u een verwijzing naar de gegevens in de opslagservice, samen met een kopie van de metagegevens.

Omdat gegevenssets te langzaam worden geëvalueerd en de gegevens op de bestaande locatie blijven, kunt u

Er worden geen extra opslagkosten in rekening gebracht.
Riskeer niet onbedoeld uw oorspronkelijke gegevensbronnen te wijzigen.
Prestaties van ML-werkstromen verbeteren.

Als u wilt communiceren met uw gegevens in de opslag, maakt u een gegevensset om uw gegevens in te pakken in een verbruiksobject voor machine learning-taken. Registreer de gegevensset in uw werkruimte om deze te delen en opnieuw te gebruiken in verschillende experimenten zonder complexe gegevensopname.

Gegevenssets kunnen worden gemaakt op basis van lokale bestanden, openbare URL's, Azure Open Datasets of Azure-opslagservices via gegevensarchieven.

Er zijn twee typen gegevenssets:

Een FileDataset verwijst naar een of meer bestanden in uw gegevensarchieven of openbare URL's. Als uw gegevens al zijn opgeschoond en klaar voor gebruik in trainingsexperimenten, kunt u bestanden waarnaar wordt verwezen door FileDatasets , downloaden of koppelen aan uw rekendoel.
Een TabularDataset vertegenwoordigt gegevens in tabelvorm door het opgegeven bestand of de lijst met bestanden te parseren. U kunt een TabularDataset laden in een pandas- of Spark-dataframe voor verdere manipulatie en opschoning. Zie de klasse TabularDatasetFactory voor een volledige lijst met gegevensindelingen van waaruit u TabularDatasets kunt maken.

Aanvullende mogelijkheden voor gegevenssets vindt u in de volgende documentatie:

Versie en traceer gegevenssetherkomst.
Bewaak uw gegevensset om te helpen bij het detecteren van gegevensdrift.

Werken met uw gegevens

Met gegevenssets kunt u een aantal machine learning-taken uitvoeren door naadloze integratie met Azure Machine Learning-functies.

Maak een project voor gegevenslabels.
Machine learning-modellen trainen:
Toegang tot gegevenssets voor scoren met batchdeductie in machine learning-pijplijnen.
Een gegevenssetmonitor instellen voor gegevensdriftdetectie .

Gegevens labelen met projecten voor gegevenslabels

Het labelen van grote hoeveelheden gegevens is vaak een hoofdpijn geweest in machine learning-projecten. Personen met een Computer Vision-onderdeel, zoals afbeeldingsclassificatie of objectdetectie, hebben over het algemeen duizenden afbeeldingen en bijbehorende labels nodig.

Azure Machine Learning biedt u een centrale locatie voor het maken, beheren en bewaken van labelprojecten. Labelprojecten helpen bij het coördineren van de gegevens, labels en teamleden, zodat u de labeltaken efficiënter kunt beheren. Momenteel ondersteunde taken zijn afbeeldingsclassificatie, met meerdere labels of meerdere klassen, en objectidentificatie met behulp van begrensde vakken.

Maak een labelproject voor afbeeldingen of tekstlabels en voer een gegevensset uit voor gebruik in machine learning-experimenten.

Modelprestaties bewaken met gegevensdrift

In de context van machine learning is gegevensdrift de wijziging in modelinvoergegevens die leidt tot een verslechtering van de modelprestaties. Dit is een van de belangrijkste redenen waarom de nauwkeurigheid van het model in de loop van de tijd verslechtert, waardoor het bewaken van gegevensdrift helpt bij het detecteren van prestatieproblemen van het model.

Zie het artikel Een gegevenssetmonitor maken voor meer informatie over het detecteren en waarschuwen voor gegevensdrift op nieuwe gegevens in een gegevensset.

Volgende stappen

Maak een gegevensset in Azure Machine Learning-studio of met de Python SDK met behulp van deze stappen.
Probeer trainingsvoorbeelden voor gegevenssets uit met onze voorbeeldnotebooks.

Delen via