Dela via


Data i Azure Machine Learning v1

GÄLLER FÖR: Azure CLI ml-tillägget v1

GÄLLER FÖR: Python SDK azureml v1

Azure Mašinsko učenje gör det enkelt att ansluta till dina data i molnet. Det ger ett abstraktionslager över den underliggande lagringstjänsten, så att du på ett säkert sätt kan komma åt och arbeta med dina data utan att behöva skriva kod som är specifik för din lagringstyp. Azure Mašinsko učenje tillhandahåller även följande datafunktioner:

  • Samverkan med Pandas och Spark DataFrames
  • Versionshantering och spårning av data härkomst
  • Dataetiketter
  • Övervakning av dataavvikelser

Dataarbetsflöde

Om du vill använda data i din molnbaserade lagringslösning rekommenderar vi det här arbetsflödet för dataleverans. Arbetsflödet förutsätter att du har ett Azure Storage-konto och data i en Molnbaserad Azure-lagringstjänst.

  1. Skapa ett Azure Mašinsko učenje-datalager för att lagra anslutningsinformation till din Azure Storage

  2. Skapa en Azure Mašinsko učenje-datauppsättning från det dataarkivet för att peka på en specifik fil eller filer i din underliggande lagring

  3. Om du vill använda datamängden i maskininlärningsexperimentet kan du antingen

    • Montera datamängden till experimentets beräkningsmål för modellträning

      OR

    • Använd datauppsättningen direkt i Azure Mašinsko učenje lösningar – till exempel automatiserade maskininlärningsexperimentkörningar (automatiserad ML), maskininlärningspipelines eller Azure Mašinsko učenje designer.

  4. Skapa datamängdsövervakare för modellens utdatauppsättning för att identifiera dataavvikelser

  5. För identifierad dataavvikelse uppdaterar du indatauppsättningen och tränar om din modell i enlighet med detta

Den här skärmbilden visar det rekommenderade arbetsflödet:

Skärmbild som visar Azure Storage Service, som flödar till ett datalager och sedan till en datauppsättning.

Ansluta till lagring med datalager

Azure Mašinsko učenje datalager är säkert värd för din datalagringsanslutningsinformation i Azure, så du behöver inte placera den informationen i skripten. Mer information om hur du ansluter till ett lagringskonto och dataåtkomst i din underliggande lagringstjänst finns i Registrera och skapa ett datalager.

Dessa azure-molnbaserade lagringstjänster som stöds kan registreras som datalager:

  • Azure Blob-container
  • Azure-filresurs
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • Databricks-filsystem
  • Azure Database for MySQL

Dricks

Du kan skapa datalager med autentiseringsbaserad autentisering för åtkomst till lagringstjänster, till exempel ett tjänsthuvudnamn eller en SAS-token (signatur för delad åtkomst). Användare med läsåtkomst till arbetsytan kan komma åt dessa autentiseringsuppgifter.

Om detta är ett problem kan du gå till Skapa ett datalager som använder identitetsbaserad dataåtkomst för mer information om anslutningar till lagringstjänster.

Referensdata i lagring med datauppsättningar

Azure Mašinsko učenje datauppsättningar är inte kopior av dina data. Själva skapandet av datamängden skapar en referens till data i lagringstjänsten, tillsammans med en kopia av dess metadata.

Eftersom datauppsättningar utvärderas lazily och data finns kvar på den befintliga platsen kan du

  • Medför ingen extra lagringskostnad
  • Riskera inte oavsiktliga ändringar i dina ursprungliga datakällor
  • Förbättra prestandahastigheter för ML-arbetsflöde

Om du vill interagera med dina data i lagringen skapar du en datauppsättning för att paketera dina data i ett förbrukningsbart objekt för maskininlärningsuppgifter. Registrera datauppsättningen på din arbetsyta för att dela och återanvända den i olika experiment utan datainmatningskomplexiteter.

Du kan skapa datauppsättningar från lokala filer, offentliga URL:er, Azure Open Datasets eller Azure Storage-tjänster via datalager.

Det finns två typer av datauppsättningar:

  • En FileDataset refererar till en eller flera filer i dina datalager eller offentliga URL:er. Om dina data redan är rensade och redo för träningsexperiment kan du ladda ned eller montera filer som refereras av FileDatasets till beräkningsmålet

  • En TabularDataset representerar data i tabellformat genom att parsa den angivna filen eller listan med filer. Du kan läsa in en TabularDataset till en Pandas eller Spark DataFrame för ytterligare manipulering och rensning. En fullständig lista över dataformat som du kan skapa TabularDatasets från finns i klassen TabularDatasetFactory

De här resurserna innehåller mer information om datamängdsfunktioner:

Arbeta med dina data

Med datauppsättningar kan du utföra maskininlärningsuppgifter genom sömlös integrering med Azure Mašinsko učenje funktioner.

Märka data med dataetikettprojekt

Att märka stora mängder data i maskininlärningsprojekt kan bli en huvudvärk. Projekt som omfattar en komponent för visuellt innehåll, till exempel bildklassificering eller objektidentifiering, kräver ofta tusentals bilder och motsvarande etiketter.

Azure Mašinsko učenje tillhandahåller en central plats för att skapa, hantera och övervaka etiketteringsprojekt. Med etikettprojekt kan du samordna data, etiketter och gruppmedlemmar så att du kan hantera etiketteringsuppgifterna på ett effektivare sätt. För närvarande stöds uppgifter som omfattar bildklassificering, antingen flera etiketter eller flera klasser, och objektidentifiering med hjälp av avgränsade rutor.

Skapa ett projekt för bildetiketter eller textetiketter och mata ut en datauppsättning för användning i maskininlärningsexperiment.

Övervaka modellprestanda med dataavvikelse

I samband med maskininlärning innebär dataavvikelse den förändring av modellindata som leder till försämrad modellprestanda. Det är en viktig orsak till att modellprecisionen försämras med tiden, och övervakning av dataavvikelser hjälper till att identifiera prestandaproblem med modellen.

Mer information finns i Skapa en datamängdsövervakare för att lära dig hur du identifierar och varnar för dataavvikelser på nya data i en datauppsättning.

Nästa steg