Databegrepp i Azure Machine Learning

Med Azure Machine Learning kan du importera data från en lokal dator eller en befintlig molnbaserad lagringsresurs. I den här artikeln beskrivs viktiga begrepp för Azure Machine Learning-data.

Datalager

Ett Azure Machine Learning-datalager fungerar som en referens till ett befintligt Azure Storage-konto. Ett Azure Machine Learning-datalager erbjuder följande fördelar:

  • Ett vanligt, användarvänligt API som interagerar med olika lagringstyper (Blob/Files/ADLS).
  • Enklare identifiering av användbara datalager i teamåtgärder.
  • För autentiseringsbaserad åtkomst (tjänstens huvudnamn/SAS/nyckel) skyddar Azure Machine Learning-datalager anslutningsinformationen. På så sätt behöver du inte placera den informationen i dina skript.

När du skapar ett datalager med ett befintligt Azure Storage-konto kan du välja mellan två olika autentiseringsmetoder:

  • Autentiseringsbaserad – autentisera dataåtkomst med ett tjänsthuvudnamn, sas-token (signatur för delad åtkomst) eller kontonyckel. Användare med åtkomst till arbetsytan Läsare kan komma åt autentiseringsuppgifterna.
  • Identitetsbaserad – använd din Microsoft Entra-identitet eller hanterade identitet för att autentisera dataåtkomst.

I följande tabell sammanfattas de molnbaserade Lagringstjänster i Azure som ett Azure Machine Learning-datalager kan skapa. Dessutom sammanfattar tabellen de autentiseringstyper som kan komma åt dessa tjänster:

Lagringstjänst som stöds Autentiseringsuppgiftsbaserad autentisering Identitetsbaserad autentisering
Azure Blob-container
Azure-filresurs
Azure Data Lake Gen1
Azure Data Lake Gen2

Mer information om datalager finns i Skapa datalager .

Standarddatalager

Varje Azure Machine Learning-arbetsyta har ett standardlagringskonto (Azure Storage-konto) som innehåller följande datalager:

Dricks

Om du vill hitta ID:t för din arbetsyta går du till arbetsytan i Azure-portalen. Expandera Inställningar och välj sedan Egenskaper. Arbetsytans ID visas.

Namn på datalager Datalagringstyp Namn på datalagring beskrivning
workspaceblobstore Blobcontainer azureml-blobstore-{workspace-id} Lagrar datauppladdningar, ögonblicksbilder av jobbkod och cacheminne för pipelinedata.
workspaceworkingdirectory Filresurs code-{GUID} Lagrar data för notebook-filer, beräkningsinstanser och promptflöde.
workspacefilestore Filresurs azureml-filestore-{workspace-id} Alternativ container för dataöverföring.
workspaceartifactstore Blobcontainer azureml Lagring för tillgångar som mått, modeller och komponenter.

Datatyper

En URI (lagringsplats) kan referera till en fil, en mapp eller en datatabell. En maskininlärningsjobbsindata- och utdatadefinition kräver någon av följande tre datatyper:

Typ V2 API V1 API Kanoniska scenarier Api-skillnad för V2/V1
Arkiv
Referera till en enskild fil
uri_file FileDataset Läsa/skriva en enskild fil – filen kan ha valfritt format. En typ som är ny för V2-API:er. I V1-API:er mappas filer alltid till en mapp i filsystemet för beräkningsmål. den här mappningen krävde en os.path.join. I V2-API:er mappas den enskilda filen. På så sätt kan du referera till den platsen i koden.
Mapp
Referera till en enskild mapp
uri_folder FileDataset Du måste läsa/skriva en mapp med parquet-/CSV-filer till Pandas/Spark.

Djupinlärning med bilder, text, ljud, videofiler som finns i en mapp.
I V1-API:er FileDataset hade en associerad motor som kunde ta ett filexempel från en mapp. I V2-API:er är en mapp en enkel mappning till filsystemet för beräkningsmål.
Tabell
Referera till en datatabell
mltable TabularDataset Du har ett komplext schema som kan ändras ofta, eller så behöver du en delmängd med stora tabelldata.

AutoML med tabeller.
I V1-API:er lagrade Azure Machine Learning-serverdelen skissen för datamaterialisering. Därför TabularDataset fungerade bara om du hade en Azure Machine Learning-arbetsyta. mltable lagrar skissen för datamaterialisering i lagringen . Den här lagringsplatsen innebär att du kan använda den frånkopplad till AzureML – till exempel lokalt och lokalt. I V2-API:er blir det enklare att övergå från lokala till fjärranslutna jobb. Mer information finns i Arbeta med tabeller i Azure Machine Learning .

URI

En URI (Uniform Resource Identifier) representerar en lagringsplats på din lokala dator, Azure Storage eller en offentligt tillgänglig http-plats. I de här exemplen visas URI:er för olika lagringsalternativ:

Lagringsplats URI-exempel
Azure Machine Learning Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Lokal dator ./home/username/data/my_data
Offentlig http-server https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blobb-lagring wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Ett Azure Machine Learning-jobb mappar URI:er till beräkningsmålfilsystemet. Den här mappningen innebär att i ett kommando som förbrukar eller producerar en URI fungerar den URI:n som en fil eller en mapp. En URI använder identitetsbaserad autentisering för att ansluta till lagringstjänster, antingen med ditt Microsoft Entra-ID (standard) eller hanterad identitet. Azure Machine Learning Datastore-URI :er kan tillämpa identitetsbaserad autentisering eller autentiseringsbaserad (till exempel tjänsthuvudnamn, SAS-token, kontonyckel) utan att hemligheter exponeras.

En URI kan fungera som antingen indata eller utdatatill ett Azure Machine Learning-jobb, och den kan mappas till filsystemet för beräkningsmål med något av fyra olika lägesalternativ:

  • Skrivskyddad montering (ro_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder skrivskyddade utdata exklusivt.
  • Läs-skrivmontering (rw_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder både läsutdata från den och dataskrivningar till den.
  • Ladda ned (download): URI:n representerar en lagringsplats som innehåller data som laddas ned till filsystemet för beräkningsmål.
  • Ladda upp (upload): Alla data som skrivs till en beräkningsmålplats laddas upp till lagringsplatsen som representeras av URI:n.

Dessutom kan du skicka in URI:n som en jobbindatasträng med direktläget . Den här tabellen sammanfattar kombinationen av lägen som är tillgängliga för indata och utdata:

Projekt
Indata eller utdata
upload download ro_mount rw_mount direct
Indata
Utdata

Mer information finns i Komma åt data i ett jobb .

Datakörningsfunktion

Azure Machine Learning använder sin egen datakörning i något av tre syften:

  • för monteringar/uppladdningar/nedladdningar
  • för att mappa lagrings-URI:er till filsystemet för beräkningsmål
  • för att materialisera tabelldata i Pandas/spark med Azure Machine Learning-tabeller (mltable)

Azure Machine Learning-datakörningen är utformad för hög hastighet och hög effektivitet för maskininlärningsuppgifter. Den erbjuder följande viktiga fördelar:

  • Rust-språkarkitektur . Rust-språket är känt för hög hastighet och hög minneseffektivitet.
  • Lätt vikt; Azure Machine Learning-datakörningen har inga beroenden för andra tekniker – till exempel JVM – så körningen installeras snabbt på beräkningsmål.
  • Datainläsning med flera processer (parallell).
  • Förhämtning av data fungerar som bakgrundsaktivitet på processorerna för att förbättra användningen av GPU:er i djupinlärningsåtgärder.
  • Sömlös autentisering till molnlagring.

Datatillgång

En Azure Machine Learning-datatillgång liknar webbläsarbokmärken (favoriter). I stället för att komma ihåg långa lagringssökvägar (URI:er) som pekar på dina mest använda data kan du skapa en datatillgång och sedan komma åt tillgången med ett eget namn.

Skapande av datatillgång skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Eftersom data finns kvar på den befintliga platsen medför du ingen extra lagringskostnad och du riskerar inte datakällans integritet. Du kan skapa datatillgångar från Azure Machine Learning-datalager, Azure Storage, offentliga URL:er eller lokala filer.

Mer information om datatillgångar finns i Skapa datatillgångar .

Nästa steg