Data i Azure Machine Learning v1

Artikel
03/05/2024

GÄLLER FÖR:Azure CLI ml-tillägget v1

Azure Machine Learning gör det enkelt att ansluta till dina data i molnet. Det ger ett abstraktionslager över den underliggande lagringstjänsten, så att du på ett säkert sätt kan komma åt och arbeta med dina data utan att behöva skriva kod som är specifik för din lagringstyp. Azure Machine Learning tillhandahåller även följande datafunktioner:

Samverkan med Pandas och Spark DataFrames
Versionshantering och spårning av data härkomst
Dataetiketter
Övervakning av dataavvikelser

Dataarbetsflöde

Om du vill använda data i din molnbaserade lagringslösning rekommenderar vi det här arbetsflödet för dataleverans. Arbetsflödet förutsätter att du har ett Azure Storage-konto och data i en Molnbaserad Azure-lagringstjänst.

Skapa ett Azure Machine Learning-datalager för att lagra anslutningsinformation till azure-lagringen
Från det dataarkivet skapar du en Azure Machine Learning-datauppsättning för att peka på en specifik fil eller filer i din underliggande lagring
Om du vill använda datamängden i maskininlärningsexperimentet kan du antingen
- Montera datamängden till experimentets beräkningsmål för modellträning
  
  OR
- Använd datauppsättningen direkt i Azure Machine Learning-lösningar – till exempel automatiserade maskininlärningsexperimentkörningar (automatiserad ML), maskininlärningspipelines eller Azure Machine Learning-designern.
Skapa datamängdsövervakare för modellens utdatauppsättning för att identifiera dataavvikelser
För identifierad dataavvikelse uppdaterar du indatauppsättningen och tränar om din modell i enlighet med detta

Den här skärmbilden visar det rekommenderade arbetsflödet:

Anslut till lagring med datalager

Azure Machine Learning-datalager är säkert värd för din datalagringsanslutningsinformation i Azure, så du behöver inte placera den informationen i dina skript. Mer information om hur du ansluter till ett lagringskonto och dataåtkomst i din underliggande lagringstjänst finns i Registrera och skapa ett datalager.

Dessa azure-molnbaserade lagringstjänster som stöds kan registreras som datalager:

Azure Blob-container
Azure-filresurs
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Databricks-filsystem
Azure Database for MySQL

Dricks

Du kan skapa datalager med autentiseringsbaserad autentisering för åtkomst till lagringstjänster, till exempel ett tjänsthuvudnamn eller en SAS-token (signatur för delad åtkomst). Användare med läsåtkomst till arbetsytan kan komma åt dessa autentiseringsuppgifter.

Om detta är ett problem kan du gå till Skapa ett datalager som använder identitetsbaserad dataåtkomst för mer information om anslutningar till lagringstjänster.

Referensdata i lagring med datauppsättningar

Azure Machine Learning-datauppsättningar är inte kopior av dina data. Själva skapandet av datamängden skapar en referens till data i lagringstjänsten, tillsammans med en kopia av dess metadata.

Eftersom datauppsättningar utvärderas lazily och data finns kvar på den befintliga platsen kan du

Medför ingen extra lagringskostnad
Riskera inte oavsiktliga ändringar i dina ursprungliga datakällor
Förbättra prestandahastigheter för ML-arbetsflöde

Om du vill interagera med dina data i lagringen skapar du en datauppsättning för att paketera dina data i ett förbrukningsbart objekt för maskininlärningsuppgifter. Registrera datauppsättningen på din arbetsyta för att dela och återanvända den i olika experiment utan datainmatningskomplexiteter.

Du kan skapa datauppsättningar från lokala filer, offentliga URL:er, Azure Open Datasets eller Azure Storage-tjänster via datalager.

Det finns två typer av datauppsättningar:

En FileDataset refererar till en eller flera filer i dina datalager eller offentliga URL:er. Om dina data redan är rensade och redo för träningsexperiment kan du ladda ned eller montera filer som refereras av FileDatasets till beräkningsmålet
En TabularDataset representerar data i tabellformat genom att parsa den angivna filen eller listan med filer. Du kan läsa in en TabularDataset till en Pandas eller Spark DataFrame för ytterligare manipulering och rensning. En fullständig lista över dataformat som du kan skapa TabularDatasets från finns i klassen TabularDatasetFactory

De här resurserna innehåller mer information om datamängdsfunktioner:

Versions- och spårningsdatauppsättningens ursprung
Övervaka din datauppsättning för att hjälpa till med identifiering av dataavvikelser

Arbeta med dina data

Med datauppsättningar kan du utföra maskininlärningsuppgifter genom sömlös integrering med Azure Machine Learning-funktioner.

Skapa ett dataetikettprojekt
Träna maskininlärningsmodeller:
- automatiserade ML-experiment
- designern
- Bärbara datorer
- Azure Machine Learning-pipelines
Få åtkomst till datauppsättningar för bedömning med batchinferens i maskininlärningspipelines
Konfigurera en datamängdsövervakare för identifiering av dataavvikelser

Märka data med dataetikettprojekt

Att märka stora mängder data i maskininlärningsprojekt kan bli en huvudvärk. Projekt som omfattar en komponent för visuellt innehåll, till exempel bildklassificering eller objektidentifiering, kräver ofta tusentals bilder och motsvarande etiketter.

Azure Machine Learning är en central plats för att skapa, hantera och övervaka etiketteringsprojekt. Med etikettprojekt kan du samordna data, etiketter och gruppmedlemmar så att du kan hantera etiketteringsuppgifterna på ett effektivare sätt. För närvarande stöds uppgifter som omfattar bildklassificering, antingen flera etiketter eller flera klasser, och objektidentifiering med hjälp av avgränsade rutor.

Skapa ett projekt för bildetiketter eller textetiketter och mata ut en datauppsättning för användning i maskininlärningsexperiment.

Övervaka modellprestanda med dataavvikelse

I samband med maskininlärning innebär dataavvikelse den förändring av modellindata som leder till försämrad modellprestanda. Det är en viktig orsak till att modellprecisionen försämras med tiden, och övervakning av dataavvikelser hjälper till att identifiera prestandaproblem med modellen.

Mer information finns i Skapa en datamängdsövervakare för att lära dig hur du identifierar och varnar för dataavvikelser på nya data i en datauppsättning.

Nästa steg

Skapa en datauppsättning i Azure Machine Learning-studio eller med Python SDK
Prova exempel på datauppsättningsträning med våra exempelanteckningsböcker