Importare asset di dati (anteprima)

Articolo
04/19/2024

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Questo articolo illustra come importare dati nella piattaforma Azure Machine Learning da origini esterne. Un'importazione dei dati completata crea e registra automaticamente un asset di dati di Azure Machine Learning con il nome specificato durante l'importazione. Un asset di dati di Azure Machine Learning è simile a un segnalibro del Web browser (preferiti). Non è necessario ricordare i percorsi di archiviazione lunghi (URI) che puntano ai dati usati più di frequente. È invece possibile creare un asset di dati e quindi accedere a tale asset con un nome descrittivo.

Un'importazione di dati crea una cache dei dati di origine, insieme ai metadati, per un accesso ai dati più rapido e affidabile nei processi di training di Azure Machine Learning. La cache dei dati evita vincoli di rete e connessione. Il controllo delle versioni dei dati memorizzati nella cache consente di supportare la riproducibilità. In questo modo sono disponibili funzionalità di controllo delle versioni per i dati importati dalle origini di SQL Server. Inoltre, i dati memorizzati nella cache forniscono la derivazione dei dati per le attività di controllo. Un'importazione di dati usa le pipeline di Azure Data Factory (Azure Data Factory) in background, il che significa che gli utenti possono evitare interazioni complesse con Azure Data Factory. Dietro le quinte, Azure Machine Learning gestisce anche la gestione delle dimensioni del pool di risorse di calcolo di Azure Data Factory, il provisioning delle risorse di calcolo e l'eliminazione, per ottimizzare il trasferimento dei dati determinando la parallelizzazione corretta.

I dati trasferiti vengono partizionati e archiviati in modo sicuro come file parquet nell'archiviazione di Azure. Ciò consente un'elaborazione più rapida durante il training. I costi di calcolo di Azure Data Factory comportano solo il tempo usato per i trasferimenti di dati. I costi di archiviazione comportano solo il tempo necessario per memorizzare nella cache i dati, perché i dati memorizzati nella cache sono una copia dei dati importati da un'origine esterna. Archiviazione di Azure ospita l'origine esterna.

La funzionalità di memorizzazione nella cache comporta costi iniziali di calcolo e archiviazione. Tuttavia, paga per se stesso e può risparmiare denaro, perché riduce i costi di calcolo di training ricorrenti, rispetto alle connessioni dirette ai dati di origine esterna durante il training. Memorizza nella cache i dati come file parquet, che rende il training del processo più veloce e più affidabile rispetto ai timeout di connessione per set di dati di dimensioni maggiori. Ciò comporta un minor numero di nuove esecuzioni e un minor numero di errori di training.

È possibile importare dati da Amazon S3, Azure SQL e Snowflake.

Importante

Questa funzionalità è attualmente in anteprima pubblica. Questa versione di anteprima viene fornita senza contratto di servizio, pertanto non è consigliabile usarla per i carichi di lavoro in ambienti di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate.

Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Prerequisiti

Per creare e usare asset di dati, è necessario:

Una sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning. Creare le risorse dell'area di lavoro.
L'interfaccia della riga di comando/SDK di Azure Machine Learning installata.
Connessioni all'area di lavoro create

Nota

Per un'importazione corretta dei dati, verificare di aver installato il pacchetto azure-ai-ml più recente (versione 1.15.0 o successiva) per SDK e l'estensione ml (versione 2.15.1 o successiva).

Se si dispone di un pacchetto SDK o di un'estensione dell'interfaccia della riga di comando precedente, rimuovere la versione precedente e reinstallare con il codice illustrato nella sezione della scheda. Seguire le istruzioni per SDK e interfaccia della riga di comando, come illustrato di seguito:

Versioni del codice

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip uninstall azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)

Importare da un database esterno come asset di dati mltable

Nota

I database esterni possono avere formati Snowflake, Azure SQL e così via.

Gli esempi di codice seguenti possono importare dati da database esterni. Il connection che gestisce l'azione di importazione determina i metadati dell'origine dati del database esterno. In questo esempio il codice importa i dati da una risorsa Snowflake. La connessione punta a un'origine Snowflake. Con una piccola modifica, la connessione può puntare a un'origine del database SQL di Azure e a un'origine del database SQL di Azure. Il type di asset importato da un'origine di database esterna è mltable.

Creare un file YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Eseguire quindi il comando seguente nell'interfaccia della riga di comando:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Nota

L'esempio illustrato di seguito descrive il processo per un database Snowflake. Tuttavia, questo processo copre altri formati di database esterni, ad esempio SQL di Azure e così via.

Andare a studio di Azure Machine Learning.
Nel riquadro di spostamento a sinistra selezionare Dati in Asset. Selezionare quindi la scheda Importazione dati. Selezionare quindi Crea, come illustrato in questo screenshot:
Nella schermata Origine dati selezionare Snowflake e quindi selezionare Avanti, come illustrato nello screenshot seguente:
Nella schermata Tipo di dati immettere i valori. Il valore predefinito Type è Table (mltable). Selezionare quindi Avanti, come illustrato in questo screenshot:
Nella schermata Crea importazione dati compilare i valori e selezionare Avanti, come illustrato in questo screenshot:
Compilare i valori nella schermata Scegliere un archivio dati per l'output e selezionare Avanti, come illustrato in questo screenshot. L'archivio dati gestito dell'area di lavoro è selezionato per impostazione predefinita; il percorso viene assegnato automaticamente dal sistema quando si sceglie l'archivio dati gestito. Se si seleziona archivio dati gestito dell'area di lavoro, viene visualizzato l’elenco a discesa Impostazione di eliminazione automatica. Offre un intervallo di tempo di eliminazione dei dati di 30 giorni per impostazione predefinita e in Come gestire gli asset di dati importati viene spiegato come modificare questo valore.

Nota

Per scegliere un archivio dati personalizzato, selezionare Altri archivi dati. In tal caso, è necessario selezionare il percorso per la posizione della cache dei dati.

È possibile aggiungere una pianificazione. Selezionare Aggiungi pianificazione, come illustrato in questo screenshot:

Viene aperto un nuovo pannello, in cui è possibile definire una pianificazione ricorrenza o una pianificazione Cron . Questo screenshot mostra il pannello per una pianificazione Ricorrenza:

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.
Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.
- Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
- Ricorrenza o Espressione cron: selezionare la ricorrenza per specificare il criterio ricorrente. In Ricorrenza è possibile specificare la frequenza di ricorrenza in minuti, ore, giorni, settimane o mesi.
- Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
- Fine: la pianificazione diventerà inattiva dopo questa data. Per impostazione predefinita è NONE, il che significa che la pianificazione sarà sempre attiva fino a quando non viene disabilitata manualmente.
- Tag: tag della pianificazione selezionati.

Nota

Inizio specifica la data e l'ora di inizio con il fuso orario della pianificazione. Se l'avvio viene omesso, l'ora di inizio è uguale all'ora di creazione della pianificazione. Per un'ora di inizio nel passato, il primo processo viene eseguito in occasione dell’ora di esecuzione successiva calcolata.

Lo screenshot successivo mostra l'ultima schermata di questo processo. Esaminare le scelte effettuate e selezionare Crea. In questa schermata e nelle altre schermate di questo processo selezionare Indietro per passare alle schermate precedenti per modificare le scelte dei valori.

Questo screenshot mostra il pannello per una pianificazione Cron:

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.

Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.

Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
Ricorrenza o Espressione Cron: selezionare l'espressione cron per specificare i dettagli cron.

(Obbligatorio)expression usa un'espressione crontab standard per esprimere una pianificazione ricorrente. Una singola espressione è costituita da cinque campi delimitati da spazi:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un singolo carattere jolly (*), che copre tutti i valori per il campo. Un *, in giorni, indica tutti i giorni di un mese (che varia con mese e anno).
expression: "15 16 * * 1" nell'esempio precedente indica le 16:15 di ogni lunedì.

Nella tabella successiva sono elencati i valori validi per ogni campo:

Campo	Intervallo	Commento
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`MONTHS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`DAYS-OF-WEEK`	0-6	Zero (0) indica la domenica. Sono accettati anche i nomi dei giorni.

Per altre informazioni sulle espressioni crontab, visitare il wiki dell'espressione Crontab su GitHub.

Importante

DAYS e MONTH non sono supportati. Se si passa uno di questi valori, verrà ignorato e considerato come *.

Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
Fine: la pianificazione diventerà inattiva dopo questa data. Per impostazione predefinita è NONE, il che significa che la pianificazione sarà sempre attiva fino a quando non viene disabilitata manualmente.
Tag: tag della pianificazione selezionati.

Nota

Importare dati da un file system esterno come asset di dati di cartelle

Nota

Una risorsa dati Amazon S3 può fungere da risorsa file system esterna.

L'oggetto connection che gestisce l'azione di importazione dei dati determina gli aspetti dell'origine dati esterna. La connessione definisce un bucket Amazon S3 come destinazione. La connessione prevede un valore path valido. Un valore di asset importato da un'origine del file system esterno ha un type di uri_folder.

L'esempio di codice successivo importa i dati da una risorsa Amazon S3.

Creare un file YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Eseguire, quindi, questo comando nell'interfaccia della riga di comando:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Andare a studio di Azure Machine Learning.
Nel riquadro di spostamento a sinistra selezionare Dati in Asset. Selezionare quindi la scheda Importazione dati. Successivamente, selezionare Crea come illustrato in questo screenshot:
Nella schermata Origine dati selezionare S3 e quindi selezionare Avanti, come illustrato in questo screenshot:
Nella schermata Tipo di dati immettere i valori. Il valore predefinito Type è Folder (uri_folder). Selezionare quindi Avanti, come illustrato in questo screenshot:
Nella schermata Crea importazione dati compilare i valori e selezionare Avanti, come illustrato in questo screenshot:
Compilare i valori nella schermata Scegliere un archivio dati per l'output e selezionare Avanti, come illustrato in questo screenshot. L'archivio dati gestito dell'area di lavoro è selezionato per impostazione predefinita; il percorso viene assegnato automaticamente dal sistema quando si sceglie l'archivio dati gestito. Se si seleziona archivio dati gestito dell'area di lavoro, viene visualizzato l’elenco a discesa Impostazione di eliminazione automatica. Offre un intervallo di tempo di eliminazione dei dati di 30 giorni per impostazione predefinita e in Come gestire gli asset di dati importati viene spiegato come modificare questo valore.
È possibile aggiungere una pianificazione. Selezionare Aggiungi pianificazione, come illustrato in questo screenshot:
Viene aperto un nuovo pannello, in cui è possibile definire una pianificazione Ricorrenza o una pianificazione Cron. Questo screenshot mostra il pannello per una pianificazione Ricorrenza:
- Nome: identificatore univoco della pianificazione nell'area di lavoro.
- Descrizione: descrizione della pianificazione.
- Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.
  - Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
  - Ricorrenza o Espressione cron: selezionare la ricorrenza per specificare il criterio ricorrente. In Ricorrenza è possibile specificare la frequenza di ricorrenza in minuti, ore, giorni, settimane o mesi.
  - Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
  - Fine: la pianificazione diventerà inattiva dopo questa data. Per impostazione predefinita è NONE, il che significa che la pianificazione sarà sempre attiva fino a quando non viene disabilitata manualmente.
  - Tag: tag della pianificazione selezionati.
Nota

Inizio specifica la data e l'ora di inizio con il fuso orario della pianificazione. Se l'avvio viene omesso, l'ora di inizio è uguale all'ora di creazione della pianificazione. Per un'ora di inizio nel passato, il primo processo viene eseguito in occasione dell’ora di esecuzione successiva calcolata.
Come illustrato nello screenshot successivo, esaminare le scelte effettuate nell'ultima schermata di questo processo e selezionare Crea. In questa schermata e nelle altre schermate di questo processo selezionare Indietro per passare alle schermate precedenti se si desidera modificare le scelte dei valori.

Questo screenshot mostra il pannello per una pianificazione Cron:

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.

Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.

Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
Ricorrenza o Espressione Cron: selezionare l'espressione cron per specificare i dettagli cron.

(Obbligatorio)expression usa un'espressione crontab standard per esprimere una pianificazione ricorrente. Una singola espressione è costituita da cinque campi delimitati da spazi:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un singolo carattere jolly (*), che copre tutti i valori per il campo. Un *, in giorni, indica tutti i giorni di un mese (che varia con mese e anno).
expression: "15 16 * * 1" nell'esempio precedente indica le 16:15 di ogni lunedì.

Nella tabella successiva sono elencati i valori validi per ogni campo:

Campo	Intervallo	Commento
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`MONTHS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`DAYS-OF-WEEK`	0-6	Zero (0) indica la domenica. Sono accettati anche i nomi dei giorni.

Per altre informazioni sulle espressioni crontab, visitare il wiki dell'espressione Crontab su GitHub.

Importante

DAYS e MONTH non sono supportati. Se si passa uno di questi valori, verrà ignorato e considerato come *.

Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
Fine: la pianificazione diventerà inattiva dopo questa data. Per impostazione predefinita è NONE, il che significa che la pianificazione sarà sempre attiva fino a quando non viene disabilitata manualmente.
Tag: tag della pianificazione selezionati.

Nota

Controllare lo stato di importazione delle origini dati esterne

L'azione di importazione dei dati è un'azione asincrona. L'operazione può richiedere molto tempo. Dopo l'invio di un'azione di importazione dei dati tramite l'interfaccia della riga di comando o l'SDK, il servizio Azure Machine Learning potrebbe richiedere alcuni minuti per connettersi all'origine dati esterna. Il servizio avvia quindi l'importazione dei dati e gestisce la memorizzazione nella cache e la registrazione dei dati. Il tempo necessario per un'importazione di dati dipende anche dalle dimensioni del set di dati di origine.

Nell'esempio seguente viene restituito lo stato dell'attività di importazione dei dati inviata. Il comando o il metodo usa il nome "asset di dati" come input per determinare lo stato della materializzazione dei dati.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Share via

Importare asset di dati (anteprima)

Prerequisiti

Versioni del codice

Importare da un database esterno come asset di dati mltable

Importare dati da un file system esterno come asset di dati di cartelle

Controllare lo stato di importazione delle origini dati esterne

Passaggi successivi

Risorse aggiuntive