Gegevensconcepten in Azure Machine Learning

Artikel
04/13/2024

Met Azure Machine Learning kunt u gegevens importeren van een lokale machine of een bestaande cloudopslagresource. In dit artikel worden de belangrijkste azure Machine Learning-gegevensconcepten beschreven.

Gegevensarchief

Een Azure Machine Learning-gegevensarchief fungeert als verwijzing naar een bestaand Azure-opslagaccount. Een Azure Machine Learning-gegevensarchief biedt de volgende voordelen:

Een veelgebruikte, gebruiksvriendelijke API die communiceert met verschillende opslagtypen (Blob/Files/ADLS).
Eenvoudigere detectie van nuttige gegevensarchieven in teambewerkingen.
Voor toegang op basis van referenties (service-principal/SAS/sleutel) beveiligt Azure Machine Learning-gegevensopslag verbindingsgegevens. Op deze manier hoeft u die gegevens niet in uw scripts te plaatsen.

Wanneer u een gegevensarchief maakt met een bestaand Azure-opslagaccount, kunt u kiezen tussen twee verschillende verificatiemethoden:

Op referenties gebaseerde verificatie van gegevenstoegang met een service-principal, SAS-token (Shared Access Signature) of accountsleutel. Gebruikers met toegang tot de werkruimte Lezer hebben toegang tot de referenties.
Op identiteit gebaseerd : gebruik uw Microsoft Entra-identiteit of beheerde identiteit om gegevenstoegang te verifiëren.

De volgende tabel bevat een overzicht van de azure-cloudopslagservices die door een Azure Machine Learning-gegevensarchief kunnen worden gemaakt. Daarnaast bevat de tabel een overzicht van de verificatietypen die toegang hebben tot deze services:

Ondersteunde opslagservice	Verificatie op basis van referenties	Verificatie op basis van identiteit
Azure Blob Container	✓	✓
Azure-bestandsshare	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Zie Gegevensarchieven maken voor meer informatie over gegevensarchieven.

Standaardgegevensarchieven

Elke Azure Machine Learning-werkruimte heeft een standaardopslagaccount (Azure-opslagaccount) dat de volgende gegevensarchieven bevat:

Tip

Als u de id voor uw werkruimte wilt vinden, gaat u naar de werkruimte in Azure Portal. Vouw Instellingen uit en selecteer Vervolgens Eigenschappen. De werkruimte-id wordt weergegeven.

Naam van gegevensarchief	Gegevensopslagtype	Naam van gegevensopslag	Beschrijving
`workspaceblobstore`	Blobcontainer	`azureml-blobstore-{workspace-id}`	Slaat gegevensuploads, momentopnamen van taakcode en pijplijngegevenscache op.
`workspaceworkingdirectory`	Bestandsshare	`code-{GUID}`	Slaat gegevens op voor notebooks, rekeninstanties en promptstroom.
`workspacefilestore`	Bestandsshare	`azureml-filestore-{workspace-id}`	Alternatieve container voor het uploaden van gegevens.
`workspaceartifactstore`	Blobcontainer	`azureml`	Opslag voor assets, zoals metrische gegevens, modellen en onderdelen.

Data types

Een URI (opslaglocatie) kan verwijzen naar een bestand, een map of een gegevenstabel. Voor een invoer- en uitvoerdefinitie van een machine learning-taak is een van de volgende drie gegevenstypen vereist:

Type	V2-API	V1-API	Canonieke scenario's	Verschil in V2/V1-API
Bestand Naar één bestand verwijzen	`uri_file`	`FileDataset`	Eén bestand lezen/schrijven: het bestand kan elke indeling hebben.	Een type dat nieuw is voor V2-API's. In V1 API's worden bestanden altijd toegewezen aan een map in het bestandssysteem van het rekendoel; voor deze toewijzing is een `os.path.join`. In V2-API's wordt het ene bestand toegewezen. Op deze manier kunt u naar die locatie verwijzen in uw code.
Map Naar één map verwijzen	`uri_folder`	`FileDataset`	U moet een map met parquet-/CSV-bestanden lezen/schrijven naar Pandas/Spark. Deep learning met afbeeldingen, tekst, audio, videobestanden in een map.	In V1-API's `FileDataset` had u een bijbehorende engine die een bestandsvoorbeeld uit een map kon nemen. In V2-API's is een map een eenvoudige toewijzing aan het bestandssysteem voor het rekendoel.
Tabel Verwijzen naar een gegevenstabel	`mltable`	`TabularDataset`	U hebt een complex schema dat onderhevig is aan frequente wijzigingen, of u hebt een subset met grote tabelgegevens nodig. AutoML met tabellen.	In V1-API's heeft de Back-end van Azure Machine Learning de blauwdruk voor gegevens materialisatie opgeslagen. Als gevolg hiervan `TabularDataset` werkte u alleen als u een Azure Machine Learning-werkruimte had. `mltable` slaat de blauwdruk voor gegevens materialisatie op in uw opslag. Deze opslaglocatie betekent dat u de verbinding met AzureML kunt gebruiken, bijvoorbeeld lokaal en on-premises. In V2-API's is het eenvoudiger om over te stappen van lokale naar externe taken. Zie Werken met tabellen in Azure Machine Learning voor meer informatie.

URI

Een URI (Uniform Resource Identifier) vertegenwoordigt een opslaglocatie op uw lokale computer, Azure-opslag of een openbaar beschikbare http(s) locatie. In deze voorbeelden ziet u URI's voor verschillende opslagopties:

Opslaglocatie	URI-voorbeelden
Azure Machine Learning-gegevensopslag	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Lokale computer	`./home/username/data/my_data`
Openbare http(s) server	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blob-opslag	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Een Azure Machine Learning-taak wijst URI's toe aan het bestandssysteem van het rekendoel. Deze toewijzing betekent dat in een opdracht die een URI verbruikt of produceert, die URI werkt als een bestand of map. Een URI maakt gebruik van verificatie op basis van identiteiten om verbinding te maken met opslagservices, met uw Microsoft Entra-id (standaard) of beheerde identiteit. Azure Machine Learning-gegevensopslag-URI's kunnen verificatie op basis van identiteiten of referenties (bijvoorbeeld service-principal, SAS-token, accountsleutel) toepassen zonder geheimen te bloot te stellen.

Een URI kan fungeren als invoer of uitvoervoor een Azure Machine Learning-taak en kan worden toegewezen aan het bestandssysteem van het rekendoel met een van de vier verschillende modusopties:

Alleen-lezen koppelen (ro_mount): de URI vertegenwoordigt een opslaglocatie die is gekoppeld aan het bestandssysteem voor het rekendoel. De gekoppelde gegevenslocatie ondersteunt uitsluitend alleen-lezen uitvoer.
Koppeling voor lezen/schrijven (rw_mount): de URI vertegenwoordigt een opslaglocatie die is gekoppeld aan het bestandssysteem van het rekendoel. De gekoppelde gegevenslocatie ondersteunt zowel leesuitvoer als schrijfbewerkingen naar de locatie.
Downloaden (download): De URI vertegenwoordigt een opslaglocatie die gegevens bevat die worden gedownload naar het bestandssysteem voor het rekendoel.
Uploaden (upload): alle gegevens die naar een rekendoellocatie worden geschreven, worden geüpload naar de opslaglocatie die wordt vertegenwoordigd door de URI.

Daarnaast kunt u de URI doorgeven als een taakinvoertekenreeks met de directe modus. Deze tabel bevat een overzicht van de combinatie van modi die beschikbaar zijn voor invoer en uitvoer:

Project Invoer of uitvoer	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Invoer		✓	✓		✓
Uitvoer	✓			✓

Zie Access-gegevens in een taak voor meer informatie.

Mogelijkheid voor gegevensruntime

Azure Machine Learning maakt gebruik van een eigen gegevensruntime voor een van de volgende drie doeleinden:

voor mounts/uploads/downloads
opslag-URI's toewijzen aan het bestandssysteem van het rekendoel
om tabelgegevens te materialiseren in pandas/spark met Azure Machine Learning-tabellen (mltable)

De Azure Machine Learning-gegevensruntime is ontworpen voor hoge snelheid en hoge efficiëntie van machine learning-taken. Het biedt de volgende belangrijke voordelen:

Rust taalarchitectuur. De Rust-taal staat bekend om hoge snelheid en hoge geheugenefficiëntie.
Lichtgewicht; De Azure Machine Learning-gegevensruntime heeft geen afhankelijkheden van andere technologieën, bijvoorbeeld JVM, zodat de runtime snel op rekendoelen wordt geïnstalleerd.
Het laden van gegevens met meerdere processen (parallel).
Gegevens worden vooraf opgehaald als achtergrondtaak op de CPU('s) om het gebruik van de GPU('s) in deep learning-bewerkingen te verbeteren.
Naadloze verificatie voor cloudopslag.

Gegevensasset

Een Azure Machine Learning-gegevensasset lijkt op bladwijzers van webbrowsers (favorieten). In plaats van lange opslagpaden (URI's) te onthouden die verwijzen naar uw meest gebruikte gegevens, kunt u een gegevensasset maken en die asset vervolgens openen met een beschrijvende naam.

Het maken van gegevensassets maakt ook een verwijzing naar de locatie van de gegevensbron, samen met een kopie van de metagegevens. Omdat de gegevens zich op de bestaande locatie bevinden, worden er geen extra opslagkosten in rekening gebracht en loopt u geen risico op gegevensbronintegriteit. U kunt gegevensassets maken op basis van Azure Machine Learning-gegevensarchieven, Azure Storage, openbare URL's of lokale bestanden.

Zie Gegevensassets maken voor meer informatie over gegevensassets .