Databegrepp i Azure Machine Learning

Artikel
04/13/2024

Med Azure Machine Learning kan du importera data från en lokal dator eller en befintlig molnbaserad lagringsresurs. I den här artikeln beskrivs viktiga begrepp för Azure Machine Learning-data.

Datalager

Ett Azure Machine Learning-datalager fungerar som en referens till ett befintligt Azure Storage-konto. Ett Azure Machine Learning-datalager erbjuder följande fördelar:

Ett vanligt, användarvänligt API som interagerar med olika lagringstyper (Blob/Files/ADLS).
Enklare identifiering av användbara datalager i teamåtgärder.
För autentiseringsbaserad åtkomst (tjänstens huvudnamn/SAS/nyckel) skyddar Azure Machine Learning-datalager anslutningsinformationen. På så sätt behöver du inte placera den informationen i dina skript.

När du skapar ett datalager med ett befintligt Azure Storage-konto kan du välja mellan två olika autentiseringsmetoder:

Autentiseringsbaserad – autentisera dataåtkomst med ett tjänsthuvudnamn, sas-token (signatur för delad åtkomst) eller kontonyckel. Användare med åtkomst till arbetsytan Läsare kan komma åt autentiseringsuppgifterna.
Identitetsbaserad – använd din Microsoft Entra-identitet eller hanterade identitet för att autentisera dataåtkomst.

I följande tabell sammanfattas de molnbaserade Lagringstjänster i Azure som ett Azure Machine Learning-datalager kan skapa. Dessutom sammanfattar tabellen de autentiseringstyper som kan komma åt dessa tjänster:

Lagringstjänst som stöds	Autentiseringsuppgiftsbaserad autentisering	Identitetsbaserad autentisering
Azure Blob-container	✓	✓
Azure-filresurs	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Mer information om datalager finns i Skapa datalager .

Standarddatalager

Varje Azure Machine Learning-arbetsyta har ett standardlagringskonto (Azure Storage-konto) som innehåller följande datalager:

Dricks

Om du vill hitta ID:t för din arbetsyta går du till arbetsytan i Azure-portalen. Expandera Inställningar och välj sedan Egenskaper. Arbetsytans ID visas.

Namn på datalager	Datalagringstyp	Namn på datalagring	beskrivning
`workspaceblobstore`	Blobcontainer	`azureml-blobstore-{workspace-id}`	Lagrar datauppladdningar, ögonblicksbilder av jobbkod och cacheminne för pipelinedata.
`workspaceworkingdirectory`	Filresurs	`code-{GUID}`	Lagrar data för notebook-filer, beräkningsinstanser och promptflöde.
`workspacefilestore`	Filresurs	`azureml-filestore-{workspace-id}`	Alternativ container för dataöverföring.
`workspaceartifactstore`	Blobcontainer	`azureml`	Lagring för tillgångar som mått, modeller och komponenter.

Datatyper

En URI (lagringsplats) kan referera till en fil, en mapp eller en datatabell. En maskininlärningsjobbsindata- och utdatadefinition kräver någon av följande tre datatyper:

Typ	V2 API	V1 API	Kanoniska scenarier	Api-skillnad för V2/V1
Arkiv Referera till en enskild fil	`uri_file`	`FileDataset`	Läsa/skriva en enskild fil – filen kan ha valfritt format.	En typ som är ny för V2-API:er. I V1-API:er mappas filer alltid till en mapp i filsystemet för beräkningsmål. den här mappningen krävde en `os.path.join`. I V2-API:er mappas den enskilda filen. På så sätt kan du referera till den platsen i koden.
Mapp Referera till en enskild mapp	`uri_folder`	`FileDataset`	Du måste läsa/skriva en mapp med parquet-/CSV-filer till Pandas/Spark. Djupinlärning med bilder, text, ljud, videofiler som finns i en mapp.	I V1-API:er `FileDataset` hade en associerad motor som kunde ta ett filexempel från en mapp. I V2-API:er är en mapp en enkel mappning till filsystemet för beräkningsmål.
Tabell Referera till en datatabell	`mltable`	`TabularDataset`	Du har ett komplext schema som kan ändras ofta, eller så behöver du en delmängd med stora tabelldata. AutoML med tabeller.	I V1-API:er lagrade Azure Machine Learning-serverdelen skissen för datamaterialisering. Därför `TabularDataset` fungerade bara om du hade en Azure Machine Learning-arbetsyta. `mltable` lagrar skissen för datamaterialisering i lagringen . Den här lagringsplatsen innebär att du kan använda den frånkopplad till AzureML – till exempel lokalt och lokalt. I V2-API:er blir det enklare att övergå från lokala till fjärranslutna jobb. Mer information finns i Arbeta med tabeller i Azure Machine Learning .

URI

En URI (Uniform Resource Identifier) representerar en lagringsplats på din lokala dator, Azure Storage eller en offentligt tillgänglig http-plats. I de här exemplen visas URI:er för olika lagringsalternativ:

Lagringsplats	URI-exempel
Azure Machine Learning Datastore	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Lokal dator	`./home/username/data/my_data`
Offentlig http-server	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blobb-lagring	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Ett Azure Machine Learning-jobb mappar URI:er till beräkningsmålfilsystemet. Den här mappningen innebär att i ett kommando som förbrukar eller producerar en URI fungerar den URI:n som en fil eller en mapp. En URI använder identitetsbaserad autentisering för att ansluta till lagringstjänster, antingen med ditt Microsoft Entra-ID (standard) eller hanterad identitet. Azure Machine Learning Datastore-URI :er kan tillämpa identitetsbaserad autentisering eller autentiseringsbaserad (till exempel tjänsthuvudnamn, SAS-token, kontonyckel) utan att hemligheter exponeras.

En URI kan fungera som antingen indata eller utdatatill ett Azure Machine Learning-jobb, och den kan mappas till filsystemet för beräkningsmål med något av fyra olika lägesalternativ:

Skrivskyddad montering (ro_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder skrivskyddade utdata exklusivt.
Läs-skrivmontering (rw_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder både läsutdata från den och dataskrivningar till den.
Ladda ned (download): URI:n representerar en lagringsplats som innehåller data som laddas ned till filsystemet för beräkningsmål.
Ladda upp (upload): Alla data som skrivs till en beräkningsmålplats laddas upp till lagringsplatsen som representeras av URI:n.

Dessutom kan du skicka in URI:n som en jobbindatasträng med direktläget . Den här tabellen sammanfattar kombinationen av lägen som är tillgängliga för indata och utdata:

Projekt Indata eller utdata	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Indata		✓	✓		✓
Utdata	✓			✓

Mer information finns i Komma åt data i ett jobb .

Datakörningsfunktion

Azure Machine Learning använder sin egen datakörning i något av tre syften:

för monteringar/uppladdningar/nedladdningar
för att mappa lagrings-URI:er till filsystemet för beräkningsmål
för att materialisera tabelldata i Pandas/spark med Azure Machine Learning-tabeller (mltable)

Azure Machine Learning-datakörningen är utformad för hög hastighet och hög effektivitet för maskininlärningsuppgifter. Den erbjuder följande viktiga fördelar:

Rust-språkarkitektur . Rust-språket är känt för hög hastighet och hög minneseffektivitet.
Lätt vikt; Azure Machine Learning-datakörningen har inga beroenden för andra tekniker – till exempel JVM – så körningen installeras snabbt på beräkningsmål.
Datainläsning med flera processer (parallell).
Förhämtning av data fungerar som bakgrundsaktivitet på processorerna för att förbättra användningen av GPU:er i djupinlärningsåtgärder.
Sömlös autentisering till molnlagring.

Datatillgång

En Azure Machine Learning-datatillgång liknar webbläsarbokmärken (favoriter). I stället för att komma ihåg långa lagringssökvägar (URI:er) som pekar på dina mest använda data kan du skapa en datatillgång och sedan komma åt tillgången med ett eget namn.

Skapande av datatillgång skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Eftersom data finns kvar på den befintliga platsen medför du ingen extra lagringskostnad och du riskerar inte datakällans integritet. Du kan skapa datatillgångar från Azure Machine Learning-datalager, Azure Storage, offentliga URL:er eller lokala filer.

Mer information om datatillgångar finns i Skapa datatillgångar .