Skapa ett datalager

Slutförd

I Azure Machine Learning är datalager abstraktioner för molndatakällor. De kapslar in den information som behövs för att ansluta till datakällor och lagrar den här anslutningsinformationen på ett säkert sätt så att du inte behöver koda den i skripten.

Fördelarna med att använda datalager är:

  • Tillhandahåller lätthanterad URI:er till din datalagring.
  • Underlättar dataidentifiering i Azure Machine Learning.
  • Lagrar anslutningsinformation på ett säkert sätt utan att exponera hemligheter och nycklar för dataforskare.

När du skapar ett datalager med ett befintligt lagringskonto i Azure kan du välja mellan två olika autentiseringsmetoder:

Diagram över två olika autentiseringsmetoder som Azure Machine Learning-datalager använder för att ansluta till externa datakällor.

  • Autentiseringsbaserad: Använd en sas-token (service principal, signatur för delad åtkomst) eller kontonyckel för att autentisera åtkomsten till ditt lagringskonto.
  • Identitetsbaserad: Använd din Microsoft Entra-identitet eller hanterade identitet.

Förstå typer av datalager

Azure Machine Learning stöder skapande av datalager för flera typer av Azure-datakällor, inklusive:

  • Azure Blob Storage
  • Azure-filresurs
  • Azure Data Lake (Gen 2)

Använda inbyggda datalager

Varje arbetsyta har fyra inbyggda datalager (två som ansluter till Azure Storage-blobcontainrar och två som ansluter till Azure Storage-filresurser), som används som systemlagringar av Azure Machine Learning.

I de flesta maskininlärningsprojekt måste du arbeta med egna datakällor. Du kan till exempel integrera din maskininlärningslösning med data från befintliga program eller datateknikpipelines.

Skapa ett datalager

Datalager är anslutna till arbetsytor och används för att lagra anslutningsinformation till lagringstjänster. När du skapar ett datalager anger du ett namn som kan användas för att hämta anslutningsinformationen.

Med datalager kan du enkelt ansluta till lagringstjänster utan att behöva ange all nödvändig information varje gång du vill läsa eller skriva data. Det skapar också ett skyddande lager om du vill att användarna ska använda data, men inte ansluta direkt till den underliggande lagringstjänsten.

Skapa ett datalager för en Azure Blob Storage-container

Du kan skapa ett datalager via det grafiska användargränssnittet, Azures kommandoradsgränssnitt (CLI) eller Python Software Development Kit (SDK).

Beroende på vilken lagringstjänst du vill ansluta till finns det olika alternativ för Azure Machine Learning att autentisera.

När du till exempel vill skapa ett datalager för att ansluta till en Azure Blob Storage-container kan du använda en kontonyckel:

blob_datastore = AzureBlobDatastore(
    			name = "blob_example",
    			description = "Datastore pointing to a blob container",
    			account_name = "mytestblobstore",
    			container_name = "data-container",
    			credentials = AccountKeyConfiguration(
        			account_key="XXXxxxXXXxXXXXxxXXX"
    			),
)
ml_client.create_or_update(blob_datastore)

Du kan också skapa ett datalager för att ansluta till en Azure Blob Storage-container med hjälp av en SAS-token för att autentisera:

blob_datastore = AzureBlobDatastore(
name="blob_sas_example",
description="Datastore pointing to a blob container",
account_name="mytestblobstore",
container_name="data-container",
credentials=SasTokenConfiguration(
sas_token="?xx=XXXX-XX-XX&xx=xxxx&xxx=xxx&xx=xxxxxxxxxxx&xx=XXXX-XX-XXXXX:XX:XXX&xx=XXXX-XX-XXXXX:XX:XXX&xxx=xxxxx&xxx=XXxXXXxxxxxXXXXXXXxXxxxXXXXXxxXXXXXxXXXXxXXXxXXxXX"
),
)
ml_client.create_or_update(blob_datastore)