Gegevensassets importeren (preview)

Artikel
09/02/2024

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

In dit artikel leert u hoe u gegevens importeert in het Azure Machine Learning-platform vanuit externe bronnen. Bij een geslaagde gegevensimport wordt automatisch een Azure Machine Learning-gegevensasset gemaakt en geregistreerd met de naam die tijdens die import is opgegeven. Een Azure Machine Learning-gegevensasset lijkt op een webbrowserbladwijzer (favorieten). U hoeft geen lange opslagpaden (URI's) te onthouden die verwijzen naar uw meest gebruikte gegevens. In plaats daarvan kunt u een gegevensasset maken en die asset vervolgens openen met een beschrijvende naam.

Een gegevensimport maakt een cache van de brongegevens, samen met metagegevens, voor snellere en betrouwbare gegevenstoegang in Azure Machine Learning-trainingstaken. De gegevenscache voorkomt netwerk- en verbindingsbeperkingen. De gegevens in de cache worden geversied ter ondersteuning van reproduceerbaarheid. Dit biedt versiebeheermogelijkheden voor gegevens die zijn geïmporteerd uit SQL Server-bronnen. Daarnaast bieden de gegevens in de cache gegevensherkomst voor controletaken. Een gegevensimport maakt achter de schermen gebruik van ADF (Azure Data Factory-pijplijnen), wat betekent dat gebruikers complexe interacties met ADF kunnen voorkomen. Achter de schermen verwerkt Azure Machine Learning ook het beheer van de grootte van de ADF-rekenresourcegroep, het inrichten van rekenresources en het afbreken van gegevens om de gegevensoverdracht te optimaliseren door de juiste parallellisatie te bepalen.

De overgedragen gegevens worden gepartitioneerd en veilig opgeslagen als parquet-bestanden in Azure Storage. Dit maakt snellere verwerking mogelijk tijdens de training. ADF-rekenkosten omvatten alleen de tijd die wordt gebruikt voor gegevensoverdracht. Opslagkosten omvatten alleen de tijd die nodig is om de gegevens in de cache op te slaan, omdat gegevens in de cache een kopie zijn van de gegevens die zijn geïmporteerd uit een externe bron. Azure Storage host die externe bron.

De cachefunctie omvat vooraf reken- en opslagkosten. Het betaalt echter voor zichzelf en kan geld besparen, omdat het terugkerende rekenkosten voor training vermindert, vergeleken met directe verbindingen met externe brongegevens tijdens de training. Hiermee worden gegevens in de cache opgeslagen als parquet-bestanden, waardoor taaktraining sneller en betrouwbaarder is ten opzichte van verbindingstime-outs voor grotere gegevenssets. Dit leidt tot minder nieuwe pogingen en minder trainingsfouten.

U kunt gegevens importeren uit Amazon S3, Azure SQL en Snowflake.

Belangrijk

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview-versie wordt geleverd zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt.

Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Vereisten

Als u gegevensassets wilt maken en ermee wilt werken, hebt u het volgende nodig:

Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint. Probeer de gratis of betaalde versie van Azure Machine Learning.
Een Azure Machine Learning-werkruimte. Werkruimtebronnen maken.
De Azure Machine Learning CLI/SDK is geïnstalleerd.
Werkruimteverbindingen gemaakt

Notitie

Controleer voor een geslaagde gegevensimport of u het nieuwste azure-ai-ml-pakket (versie 1.15.0 of hoger) voor SDK hebt geïnstalleerd en of u de ml-extensie (versie 2.15.1 of hoger) hebt geïnstalleerd.

Als u een ouder SDK-pakket of CLI-extensie hebt, verwijdert u het oude pakket en installeert u de nieuwe met de code die wordt weergegeven in de sectie tabblad. Volg de instructies voor SDK en CLI, zoals hier wordt weergegeven:

Codeversies

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)

Importeren uit een externe database als mltable-gegevensasset

Notitie

De externe databases kunnen Snowflake-, Azure SQL-, enzovoortsindelingen hebben.

Met de volgende codevoorbeelden kunt u gegevens importeren uit externe databases. De connection importactie bepaalt de metagegevens van de externe databasegegevensbron. In dit voorbeeld importeert de code gegevens uit een Snowflake-resource. De verbinding verwijst naar een Snowflake-bron. Met een kleine wijziging kan de verbinding verwijzen naar een Azure SQL-databasebron en een Azure SQL-databasebron. De geïmporteerde asset type uit een externe databasebron is mltable.

YAML Een bestand maken<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Voer vervolgens de volgende opdracht uit in de CLI:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Notitie

In het voorbeeld dat hier wordt weergegeven, wordt het proces voor een Snowflake-database beschreven. Dit proces heeft echter betrekking op andere indelingen voor externe databases, zoals Azure SQL, enzovoort.

Navigeer naar de Azure Machine Learning-studio.
Selecteer Gegevens onder Assets in het linkernavigatievenster. Selecteer vervolgens het tabblad Gegevens importeren . Selecteer Vervolgens Maken, zoals wordt weergegeven in deze schermopname:
Selecteer Snowflake in het scherm Gegevensbron en selecteer vervolgens Volgende, zoals wordt weergegeven in deze schermopname:
Vul in het scherm Gegevenstype de waarden in. De waarde Type is standaard ingesteld op Tabel (mltable). Selecteer vervolgens Volgende, zoals wordt weergegeven in deze schermopname:
Vul in het scherm Gegevens importeren maken de waarden in en selecteer Volgende, zoals wordt weergegeven in deze schermopname:
Vul de waarden in in het gegevensarchief Kiezen om het uitvoerscherm in te voeren en selecteer Volgende, zoals wordt weergegeven in deze schermopname. Het beheerde gegevensarchief van de werkruimte is standaard geselecteerd. Het pad wordt automatisch toegewezen door het systeem wanneer u een beheerd gegevensarchief kiest. Als u het beheerde gegevensarchief van de werkruimte selecteert, wordt de vervolgkeuzelijst Voor automatisch verwijderen weergegeven. Het biedt standaard een tijdvenster voor het verwijderen van gegevens van 30 dagen en het beheren van geïmporteerde gegevensassets legt uit hoe u deze waarde kunt wijzigen.

Notitie

Als u uw eigen gegevensarchief wilt kiezen, selecteert u Andere gegevensarchieven. In dat geval moet u het pad selecteren voor de locatie van de gegevenscache.

U kunt een planning toevoegen. Selecteer Planning toevoegen, zoals wordt weergegeven in deze schermopname:

Er wordt een nieuw deelvenster geopend, waarin u een terugkeerschema of een Cron-schema kunt definiëren. In deze schermopname ziet u het deelvenster voor een terugkeerschema :

Naam: de unieke id van het schema binnen de werkruimte.
Beschrijving: de beschrijving van het schema.
Trigger: het terugkeerpatroon van de planning, dat de volgende eigenschappen bevat.
- Tijdzone: de berekening van de triggertijd is gebaseerd op deze tijdzone; (UTC) Coordinated Universal Time standaard.
- Terugkeerpatroon of Cron-expressie: selecteer terugkeerpatroon om het terugkerende patroon op te geven. Onder Terugkeerpatroon kunt u de frequentie van het terugkeerpatroon opgeven: op minuten, uren, dagen, weken of maanden.
- Begindatum: de planning wordt eerst actief op deze datum. De aanmaakdatum van dit schema is standaard.
- Einde: de planning wordt na deze datum inactief. Standaard is het GEEN, wat betekent dat de planning altijd actief is totdat u het handmatig uitschakelt.
- Tags: de geselecteerde planningstags.

Notitie

Begindatum geeft de begindatum en -tijd aan met de tijdzone van de planning. Als de begintijd wordt weggelaten, is de begintijd gelijk aan de aanmaaktijd van de planning. Voor een begintijd in het verleden wordt de eerste taak uitgevoerd bij de volgende berekende uitvoeringstijd.

In de volgende schermopname ziet u het laatste scherm van dit proces. Controleer uw keuzes en selecteer Maken. Op dit scherm en de andere schermen in dit proces selecteert u Terug om naar eerdere schermen te gaan om uw keuzes van waarden te wijzigen.

In deze schermopname ziet u het deelvenster voor een Cron-schema :

Naam: de unieke id van het schema binnen de werkruimte.
Beschrijving: de beschrijving van het schema.

Trigger: het terugkeerpatroon van de planning, dat de volgende eigenschappen bevat.

Tijdzone: de berekening van de triggertijd is gebaseerd op deze tijdzone; (UTC) Coordinated Universal Time standaard.
Terugkeerpatroon of Cron-expressie: selecteer cron-expressie om de cron-details op te geven.

(Vereist) expression gebruikt een standaard crontab-expressie om een terugkerend schema uit te drukken. Eén expressie bestaat uit vijf door spaties gescheiden velden:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Eén jokerteken (*), dat alle waarden voor het veld omvat. A *, in dagen, betekent alle dagen van een maand (die varieert met maand en jaar).
De expression: "15 16 * * 1" bovenstaande steekproef betekent de 16:15 uur op elke maandag.

De volgende tabel bevat de geldige waarden voor elk veld:

Veld	Bereik	Opmerking
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Wordt niet ondersteund. De waarde wordt genegeerd en behandeld als `*`.
`MONTHS`	-	Wordt niet ondersteund. De waarde wordt genegeerd en behandeld als `*`.
`DAYS-OF-WEEK`	0-6	Nul (0) betekent zondag. Namen van dagen zijn ook geaccepteerd.

Ga naar de wiki Crontab Expression op GitHub voor meer informatie over crontab-expressies.

Belangrijk

DAYS en MONTH worden niet ondersteund. Als u een van deze waarden doorgeeft, wordt deze genegeerd en behandeld als *.

Begindatum: de planning wordt eerst actief op deze datum. De aanmaakdatum van dit schema is standaard.
Einde: de planning wordt na deze datum inactief. Standaard is het GEEN, wat betekent dat de planning altijd actief is totdat u het handmatig uitschakelt.
Tags: de geselecteerde planningstags.

Notitie

Gegevens importeren uit een extern bestandssysteem als mapgegevensasset

Notitie

Een Amazon S3-gegevensresource kan fungeren als een externe bestandssysteemresource.

De connection actie voor het importeren van gegevens bepaalt de aspecten van de externe gegevensbron. De verbinding definieert een Amazon S3-bucket als doel. De verbinding verwacht een geldige path waarde. Een assetwaarde die is geïmporteerd uit een bron van een extern bestandssysteem heeft een type van uri_folder.

In het volgende codevoorbeeld worden gegevens geïmporteerd uit een Amazon S3-resource.

YAML Een bestand maken<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Voer vervolgens deze opdracht uit in de CLI:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Navigeer naar de Azure Machine Learning-studio.
Selecteer Gegevens onder Assets in het linkernavigatievenster. Selecteer vervolgens het tabblad Gegevens importeren. Selecteer Vervolgens Maken zoals wordt weergegeven in deze schermopname:
Selecteer S3 in het scherm Gegevensbron en selecteer vervolgens Volgende, zoals wordt weergegeven in deze schermopname:
Vul in het scherm Gegevenstype de waarden in. De waarde Type wordt standaard ingesteld op Map (uri_folder). Selecteer vervolgens Volgende, zoals wordt weergegeven in deze schermopname:
Vul in het scherm Gegevens importeren maken de waarden in en selecteer Volgende, zoals wordt weergegeven in deze schermopname:
Vul de waarden in in het gegevensarchief Kiezen om het uitvoerscherm in te voeren en selecteer Volgende, zoals wordt weergegeven in deze schermopname. Het beheerde gegevensarchief van de werkruimte is standaard geselecteerd. Het pad wordt automatisch toegewezen door het systeem wanneer u een beheerd gegevensarchief kiest. Als u het beheerde gegevensarchief van de werkruimte selecteert, wordt de vervolgkeuzelijst Voor automatisch verwijderen weergegeven. Het biedt standaard een tijdvenster voor het verwijderen van gegevens van 30 dagen en het beheren van geïmporteerde gegevensassets legt uit hoe u deze waarde kunt wijzigen.
U kunt een planning toevoegen. Selecteer Planning toevoegen, zoals wordt weergegeven in deze schermopname:
Er wordt een nieuw deelvenster geopend, waarin u een terugkeerschema of een Cron-schema kunt definiëren. In deze schermopname ziet u het deelvenster voor een terugkeerschema :
- Naam: de unieke id van het schema binnen de werkruimte.
- Beschrijving: de beschrijving van het schema.
- Trigger: het terugkeerpatroon van de planning, dat de volgende eigenschappen bevat.
  - Tijdzone: de berekening van de triggertijd is gebaseerd op deze tijdzone; (UTC) Coordinated Universal Time standaard.
  - Terugkeerpatroon of Cron-expressie: selecteer terugkeerpatroon om het terugkerende patroon op te geven. Onder Terugkeerpatroon kunt u de frequentie van het terugkeerpatroon opgeven: op minuten, uren, dagen, weken of maanden.
  - Begindatum: de planning wordt eerst actief op deze datum. De aanmaakdatum van dit schema is standaard.
  - Einde: de planning wordt na deze datum inactief. Standaard is het GEEN, wat betekent dat de planning altijd actief is totdat u het handmatig uitschakelt.
  - Tags: de geselecteerde planningstags.
Notitie

Begindatum geeft de begindatum en -tijd aan met de tijdzone van de planning. Als de begintijd wordt weggelaten, is de begintijd gelijk aan de aanmaaktijd van de planning. Voor een begintijd in het verleden wordt de eerste taak uitgevoerd bij de volgende berekende uitvoeringstijd.
Zoals wordt weergegeven in de volgende schermopname, controleert u uw keuzes op het laatste scherm van dit proces en selecteert u Maken. Op dit scherm en de andere schermen in dit proces selecteert u Terug om naar eerdere schermen te gaan als u uw keuzes van waarden wilt wijzigen.

In deze schermopname ziet u het deelvenster voor een Cron-schema :

Naam: de unieke id van het schema binnen de werkruimte.
Beschrijving: de beschrijving van het schema.

Trigger: het terugkeerpatroon van de planning, dat de volgende eigenschappen bevat.

Tijdzone: de berekening van de triggertijd is gebaseerd op deze tijdzone; (UTC) Coordinated Universal Time standaard.
Terugkeerpatroon of Cron-expressie: selecteer cron-expressie om de cron-details op te geven.

(Vereist) expression gebruikt een standaard crontab-expressie om een terugkerend schema uit te drukken. Eén expressie bestaat uit vijf door spaties gescheiden velden:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Eén jokerteken (*), dat alle waarden voor het veld omvat. A *, in dagen, betekent alle dagen van een maand (die varieert met maand en jaar).
De expression: "15 16 * * 1" bovenstaande steekproef betekent de 16:15 uur op elke maandag.

De volgende tabel bevat de geldige waarden voor elk veld:

Veld	Bereik	Opmerking
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Wordt niet ondersteund. De waarde wordt genegeerd en behandeld als `*`.
`MONTHS`	-	Wordt niet ondersteund. De waarde wordt genegeerd en behandeld als `*`.
`DAYS-OF-WEEK`	0-6	Nul (0) betekent zondag. Namen van dagen zijn ook geaccepteerd.

Ga naar de wiki Crontab Expression op GitHub voor meer informatie over crontab-expressies.

Belangrijk

DAYS en MONTH worden niet ondersteund. Als u een van deze waarden doorgeeft, wordt deze genegeerd en behandeld als *.

Begindatum: de planning wordt eerst actief op deze datum. De aanmaakdatum van dit schema is standaard.
Einde: de planning wordt na deze datum inactief. Standaard is het GEEN, wat betekent dat de planning altijd actief is totdat u het handmatig uitschakelt.
Tags: de geselecteerde planningstags.

Notitie

De importstatus van externe gegevensbronnen controleren

De actie voor het importeren van gegevens is een asynchrone actie. Het kan lang duren. Na het verzenden van een importgegevensactie via de CLI of SDK, kan het zijn dat de Azure Machine Learning-service enkele minuten nodig heeft om verbinding te maken met de externe gegevensbron. Vervolgens start de service het importeren van gegevens en verwerkt de gegevenscache en -registratie. De benodigde tijd voor het importeren van gegevens is ook afhankelijk van de grootte van de brongegevensset.

In het volgende voorbeeld wordt de status van de verzonden gegevensimportactiviteit geretourneerd. De opdracht of methode gebruikt de naam van de gegevensasset als invoer om de status van de gegevens materialisatie te bepalen.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Delen via

Gegevensassets importeren (preview)

Vereisten

Codeversies

Importeren uit een externe database als mltable-gegevensasset

Gegevens importeren uit een extern bestandssysteem als mapgegevensasset

De importstatus van externe gegevensbronnen controleren

Volgende stappen

Feedback

Aanvullende resources