Gegevensconcepten in Azure Machine Learning

Met Azure Machine Learning kunt u gegevens importeren van een lokale machine of een bestaande cloudopslagresource. In dit artikel worden de belangrijkste azure Machine Learning-gegevensconcepten beschreven.

Gegevensarchief

Een Azure Machine Learning-gegevensarchief fungeert als verwijzing naar een bestaand Azure-opslagaccount. Een Azure Machine Learning-gegevensarchief biedt de volgende voordelen:

  • Een veelgebruikte, gebruiksvriendelijke API die communiceert met verschillende opslagtypen (Blob/Files/ADLS).
  • Eenvoudigere detectie van nuttige gegevensarchieven in teambewerkingen.
  • Voor toegang op basis van referenties (service-principal/SAS/sleutel) beveiligt Azure Machine Learning-gegevensopslag verbindingsgegevens. Op deze manier hoeft u die gegevens niet in uw scripts te plaatsen.

Wanneer u een gegevensarchief maakt met een bestaand Azure-opslagaccount, kunt u kiezen tussen twee verschillende verificatiemethoden:

  • Op referenties gebaseerde verificatie van gegevenstoegang met een service-principal, SAS-token (Shared Access Signature) of accountsleutel. Gebruikers met toegang tot de werkruimte Lezer hebben toegang tot de referenties.
  • Op identiteit gebaseerd : gebruik uw Microsoft Entra-identiteit of beheerde identiteit om gegevenstoegang te verifiëren.

De volgende tabel bevat een overzicht van de azure-cloudopslagservices die door een Azure Machine Learning-gegevensarchief kunnen worden gemaakt. Daarnaast bevat de tabel een overzicht van de verificatietypen die toegang hebben tot deze services:

Ondersteunde opslagservice Verificatie op basis van referenties Verificatie op basis van identiteit
Azure Blob Container
Azure-bestandsshare
Azure Data Lake Gen1
Azure Data Lake Gen2

Zie Gegevensarchieven maken voor meer informatie over gegevensarchieven.

Standaardgegevensarchieven

Elke Azure Machine Learning-werkruimte heeft een standaardopslagaccount (Azure-opslagaccount) dat de volgende gegevensarchieven bevat:

Tip

Als u de id voor uw werkruimte wilt vinden, gaat u naar de werkruimte in Azure Portal. Vouw Instellingen uit en selecteer Vervolgens Eigenschappen. De werkruimte-id wordt weergegeven.

Naam van gegevensarchief Gegevensopslagtype Naam van gegevensopslag Beschrijving
workspaceblobstore Blobcontainer azureml-blobstore-{workspace-id} Slaat gegevensuploads, momentopnamen van taakcode en pijplijngegevenscache op.
workspaceworkingdirectory Bestandsshare code-{GUID} Slaat gegevens op voor notebooks, rekeninstanties en promptstroom.
workspacefilestore Bestandsshare azureml-filestore-{workspace-id} Alternatieve container voor het uploaden van gegevens.
workspaceartifactstore Blobcontainer azureml Opslag voor assets, zoals metrische gegevens, modellen en onderdelen.

Data types

Een URI (opslaglocatie) kan verwijzen naar een bestand, een map of een gegevenstabel. Voor een invoer- en uitvoerdefinitie van een machine learning-taak is een van de volgende drie gegevenstypen vereist:

Type V2-API V1-API Canonieke scenario's Verschil in V2/V1-API
Bestand
Naar één bestand verwijzen
uri_file FileDataset Eén bestand lezen/schrijven: het bestand kan elke indeling hebben. Een type dat nieuw is voor V2-API's. In V1 API's worden bestanden altijd toegewezen aan een map in het bestandssysteem van het rekendoel; voor deze toewijzing is een os.path.join. In V2-API's wordt het ene bestand toegewezen. Op deze manier kunt u naar die locatie verwijzen in uw code.
Map
Naar één map verwijzen
uri_folder FileDataset U moet een map met parquet-/CSV-bestanden lezen/schrijven naar Pandas/Spark.

Deep learning met afbeeldingen, tekst, audio, videobestanden in een map.
In V1-API's FileDataset had u een bijbehorende engine die een bestandsvoorbeeld uit een map kon nemen. In V2-API's is een map een eenvoudige toewijzing aan het bestandssysteem voor het rekendoel.
Tabel
Verwijzen naar een gegevenstabel
mltable TabularDataset U hebt een complex schema dat onderhevig is aan frequente wijzigingen, of u hebt een subset met grote tabelgegevens nodig.

AutoML met tabellen.
In V1-API's heeft de Back-end van Azure Machine Learning de blauwdruk voor gegevens materialisatie opgeslagen. Als gevolg hiervan TabularDataset werkte u alleen als u een Azure Machine Learning-werkruimte had. mltable slaat de blauwdruk voor gegevens materialisatie op in uw opslag. Deze opslaglocatie betekent dat u de verbinding met AzureML kunt gebruiken, bijvoorbeeld lokaal en on-premises. In V2-API's is het eenvoudiger om over te stappen van lokale naar externe taken. Zie Werken met tabellen in Azure Machine Learning voor meer informatie.

URI

Een URI (Uniform Resource Identifier) vertegenwoordigt een opslaglocatie op uw lokale computer, Azure-opslag of een openbaar beschikbare http(s) locatie. In deze voorbeelden ziet u URI's voor verschillende opslagopties:

Opslaglocatie URI-voorbeelden
Azure Machine Learning-gegevensopslag azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Lokale computer ./home/username/data/my_data
Openbare http(s) server https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob-opslag wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Een Azure Machine Learning-taak wijst URI's toe aan het bestandssysteem van het rekendoel. Deze toewijzing betekent dat in een opdracht die een URI verbruikt of produceert, die URI werkt als een bestand of map. Een URI maakt gebruik van verificatie op basis van identiteiten om verbinding te maken met opslagservices, met uw Microsoft Entra-id (standaard) of beheerde identiteit. Azure Machine Learning-gegevensopslag-URI's kunnen verificatie op basis van identiteiten of referenties (bijvoorbeeld service-principal, SAS-token, accountsleutel) toepassen zonder geheimen te bloot te stellen.

Een URI kan fungeren als invoer of uitvoervoor een Azure Machine Learning-taak en kan worden toegewezen aan het bestandssysteem van het rekendoel met een van de vier verschillende modusopties:

  • Alleen-lezen koppelen (ro_mount): de URI vertegenwoordigt een opslaglocatie die is gekoppeld aan het bestandssysteem voor het rekendoel. De gekoppelde gegevenslocatie ondersteunt uitsluitend alleen-lezen uitvoer.
  • Koppeling voor lezen/schrijven (rw_mount): de URI vertegenwoordigt een opslaglocatie die is gekoppeld aan het bestandssysteem van het rekendoel. De gekoppelde gegevenslocatie ondersteunt zowel leesuitvoer als schrijfbewerkingen naar de locatie.
  • Downloaden (download): De URI vertegenwoordigt een opslaglocatie die gegevens bevat die worden gedownload naar het bestandssysteem voor het rekendoel.
  • Uploaden (upload): alle gegevens die naar een rekendoellocatie worden geschreven, worden geüpload naar de opslaglocatie die wordt vertegenwoordigd door de URI.

Daarnaast kunt u de URI doorgeven als een taakinvoertekenreeks met de directe modus. Deze tabel bevat een overzicht van de combinatie van modi die beschikbaar zijn voor invoer en uitvoer:

Project
Invoer of uitvoer
upload download ro_mount rw_mount direct
Invoer
Uitvoer

Zie Access-gegevens in een taak voor meer informatie.

Mogelijkheid voor gegevensruntime

Azure Machine Learning maakt gebruik van een eigen gegevensruntime voor een van de volgende drie doeleinden:

  • voor mounts/uploads/downloads
  • opslag-URI's toewijzen aan het bestandssysteem van het rekendoel
  • om tabelgegevens te materialiseren in pandas/spark met Azure Machine Learning-tabellen (mltable)

De Azure Machine Learning-gegevensruntime is ontworpen voor hoge snelheid en hoge efficiëntie van machine learning-taken. Het biedt de volgende belangrijke voordelen:

  • Rust taalarchitectuur. De Rust-taal staat bekend om hoge snelheid en hoge geheugenefficiëntie.
  • Lichtgewicht; De Azure Machine Learning-gegevensruntime heeft geen afhankelijkheden van andere technologieën, bijvoorbeeld JVM, zodat de runtime snel op rekendoelen wordt geïnstalleerd.
  • Het laden van gegevens met meerdere processen (parallel).
  • Gegevens worden vooraf opgehaald als achtergrondtaak op de CPU('s) om het gebruik van de GPU('s) in deep learning-bewerkingen te verbeteren.
  • Naadloze verificatie voor cloudopslag.

Gegevensasset

Een Azure Machine Learning-gegevensasset lijkt op bladwijzers van webbrowsers (favorieten). In plaats van lange opslagpaden (URI's) te onthouden die verwijzen naar uw meest gebruikte gegevens, kunt u een gegevensasset maken en die asset vervolgens openen met een beschrijvende naam.

Het maken van gegevensassets maakt ook een verwijzing naar de locatie van de gegevensbron, samen met een kopie van de metagegevens. Omdat de gegevens zich op de bestaande locatie bevinden, worden er geen extra opslagkosten in rekening gebracht en loopt u geen risico op gegevensbronintegriteit. U kunt gegevensassets maken op basis van Azure Machine Learning-gegevensarchieven, Azure Storage, openbare URL's of lokale bestanden.

Zie Gegevensassets maken voor meer informatie over gegevensassets .

Volgende stappen