Share via


Come aggiungere e gestire i dati nel progetto di Studio AI della piattaforma Azure

Importante

Alcune funzionalità descritte in questo articolo potrebbero essere disponibili solo in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Questo articolo descrive come creare e gestire i dati in Studio AI della piattaforma Azure. I dati possono essere usati come origine per l'indicizzazione in Studio AI della piattaforma Azure.

I dati possono anche essere utili quando sono necessarie queste funzionalità:

  • Controllo delle versioni: il controllo delle versioni dei dati è supportato.
  • Riproducibilità: una volta creata, una versione del dato è non modificabile. Non può essere modificata né eliminata. Pertanto, i processi o le pipeline prompt flow che usano i dati possono essere riprodotti.
  • Verificabilità: poiché la versione del dato non è modificabile, è possibile tenere traccia delle versioni, controllando chi ha aggiornato una versione e quando.
  • Derivazione: per qualsiasi dato specifico, è possibile visualizzare quali processi o pipeline prompt flow utilizzano i dati.
  • Facilità d'uso: un dato di Studio AI della piattaforma Azure è simile ai segnalibri del Web browser (preferiti). Invece di ricordare percorsi di archiviazione lunghi che fanno riferimento ai dati usati più di frequente in Archiviazione di Azure, è possibile creare una versione di dati e quindi accedervi con un nome descrittivo.

Prerequisiti

Per creare e usare dati, è necessario:

  • Una sottoscrizione di Azure. Se non se ne dispone, creare un account gratuito prima di iniziare.

  • Un progetto Studio AI.

Crea flusso

Quando si creano i dati, è necessario impostarne il tipo. Studio AI supporta tre tipi di dati:

Type Scenari canonici
file
Fare riferimento a un singolo file
Lettura di un singolo file in Archiviazione di Azure ( il file può avere qualsiasi formato).
folder
Fare riferimento a una cartella
Lettura di una cartella di file parquet/CSV in Pandas/Spark.

Leggere i dati non strutturati, ad esempio immagini, testo e audio, che si trovano in una cartella.

Studio AI della piattaforma Azure mostra i percorsi di origine supportati. È possibile creare dati da una cartella o da un file:

  • Se si seleziona il tipo di cartella, è possibile scegliere il formato dell'URL della cartella. Studio AI della piattaforma Azure mostra i formati di URL della cartella supportati. È possibile creare una risorsa dati come illustrato: Screenshot del formato URL della cartella.

  • Se si seleziona il tipo di file, è possibile scegliere il formato dell'URL del file. I formati di URL del file supportati sono visualizzati in Studio AI della piattaforma Azure. È possibile creare una risorsa dati come illustrato: Screenshot del formato URL del file.

Creare dati: tipo di file

Un tipo di risorsa dati (uri_file) del file punta a un singolo file nell'archiviazione (ad esempio un file CSV).

Questi passaggi illustrano come creare dati di tipo file in Studio AI della piattaforma Azure:

  1. Passare a Studio AI della piattaforma Azure

  2. Dal menu richiudibile a sinistra selezionare Dati in Componenti. Selezionare Nuovi dati. Screenshot che evidenzia l'opzione Aggiungi dati nella scheda Dati.

  3. Scegliere l'Origine dati. Sono disponibili tre opzioni per scegliere un'origine dati.

    • È possibile selezionare i dati da Connessioni esistenti.
    • È possibile selezionare Recupera dati con URL di Archiviazione se si dispone di un URL diretto a un account di archiviazione o a un server HTTPS accessibile pubblicamente.
    • È possibile selezionare Carica file/cartelle per caricare una cartella dall'unità locale.

    Questo screenshot mostra le connessioni esistenti.

    • Connessioni esistenti: è possibile selezionare una connessione esistente, passare a questa connessione e scegliere un file necessario. Se le connessioni esistenti non funzionano automaticamente, selezionare il pulsante Nuova connessione in alto a destra. Questo screenshot mostra la creazione di una nuova connessione a un asset esterno.

    • Recupera dati con URL di archiviazione: è possibile scegliere il tipo "File" e quindi specificare un URL in base ai formati di URL supportati elencati nella pagina. Questo screenshot mostra il provisioning di un URL che punta a un file.

    • Carica file/cartelle: è possibile selezionare Carica file/cartelle, selezionare Carica file e scegliere il file locale da caricare. Il file viene caricato nella connessione predefinita "workspaceblobstore". Questo screenshot mostra il passaggio per caricare file/cartelle.

    1. Selezionare Avanti dopo aver scelto l'origine dati.

    2. Immettere un nome personalizzato per i dati e quindi selezionare Crea.

    Questo screenshot mostra il passaggio di denominazione per l'origine dati.

Creare dati: tipo di cartella

Un tipo di origine dati Cartella (uri_folder) punta a una cartella in una risorsa di archiviazione (ad esempio una cartella contenente diverse sottocartelle di immagini). Usare questi passaggi per creare una risorsa dati di tipo Cartella in Studio AI della piattaforma Azure:

  1. Passare a Studio AI della piattaforma Azure

  2. Dal menu richiudibile a sinistra selezionare Dati in Componenti. Selezionare Nuovi dati.

    Screenshot che evidenzia l'opzione Aggiungi dati nella scheda Dati.

  3. Scegliere l'Origine dati. Sono disponibili tre opzioni per l'origine dati:

    1. Selezionare i dati da Connessioni esistenti

    2. Selezionare Ottieni dati con URL di archiviazione se si dispone di un URL diretto a un account di archiviazione o a un server HTTPS accessibile pubblicamente

    3. Selezionare Carica file/cartelle per caricare una cartella dall'unità locale

      Questo screenshot mostra le connessioni esistenti.

    • Connessioni esistenti: è possibile selezionare una connessione esistente, passare a questa connessione e scegliere un file necessario. Se le connessioni esistenti non funzionano automaticamente, è possibile selezionare il pulsante Nuova connessione a destra.

      Questo screenshot mostra il passaggio per scegliere una cartella da una connessione esistente.

    • Recupera dati con URL di archiviazione: è possibile scegliere il tipo "Cartella" e specificare un URL in base ai formati di URL supportati elencati nella pagina.

      Questo screenshot mostra il passaggio per fornire un URL che punta a una cartella.

    • Carica file/cartelle: è possibile selezionare Carica file/cartelle, selezionare Carica file e scegliere il file locale da caricare. Le risorse file vengono caricate nella connessione predefinita "workspaceblobstore".

      Questo screenshot mostra il passaggio per caricare file/cartelle.

  4. Selezionare Avanti dopo aver scelto l'origine dati.

  5. Immettere un nome personalizzato per i dati e quindi selezionare Crea.

    Screenshot della denominazione dei dati.

Gestire i dati

Eliminare dati

Importante

L'eliminazione dei dati non è supportata. I dati non sono modificabili in AI Studio. Dopo aver creato una versione dei dati, non può essere modificata o eliminata. Questa immutabilità offre un livello di protezione quando si lavora in un team che crea carichi di lavoro di produzione.

Se AI Studio ha consentito l'eliminazione dei dati, avranno gli effetti negativi seguenti:

  • I processi di produzione che utilizzano i dati eliminati in un secondo momento avrebbero esito negativo.
  • La riproduzione dell'esperimento di Machine Learning sarebbe diventata più difficile.
  • La derivazione dei processi si interromperebbe, perché diventerebbe impossibile visualizzare la versione dei dati eliminati.
  • Non sarebbe più possibile tenere traccia e controllare correttamente i processi, poiché le versioni potrebbero non essere presenti.

Quando una risorsa dati viene creata erroneamente, ad esempio con un nome, un tipo o un percorso non corretto, Azure per intelligenza artificiale offre soluzioni per gestire la situazione senza le conseguenze negative dell'eliminazione:

Motivo per cui è consigliabile eliminare i dati Soluzione
Il nome non è corretto Archiviare i dati
Il team non usa più i dati Archiviare i dati
Rende complesso l'elenco di dati Archiviare i dati
Il percorso non è corretto Creare una nuova versione del dato con lo stesso nome e con il percorso corretto. Per altre informazioni, vedere Creare dati.
È di un tipo non corretto Attualmente, Azure per intelligenza artificiale non consente la creazione di una nuova versione con un tipo diverso rispetto a quello della versione iniziale.
(1) Archiviare i dati
(2) Creare un nuovo dato con un nome diverso e con il tipo corretto.

Archiviare i dati

Per impostazione predefinita, l'archiviazione di una risorsa dati la nasconde da entrambe le query di elenco (ad esempio in az ml data list dell'interfaccia della riga di comando) e dall'elenco dei dati in Studio AI della piattaforma Azure. È comunque possibile continuare a fare riferimento e usare una risorsa dati archiviata nei flussi di lavoro. È possibile archiviare:

  • tutte le versioni del dato con un determinato nome
  • una versione specifica dei dati

Archiviare tutte le versioni di un dato

Al momento, Studio AI della piattaforma Azure non supporta l'archiviazione di tutte le versioni della risorsa dati con un nome specificato.

Archiviare una versione specifica dei dati

Al momento, Studio AI della piattaforma Azure non supporta l'archiviazione di una versione specifica della risorsa dati.

Ripristinare dati archiviati

È possibile ripristinare una risorsa di dati archiviata. Se vengono archiviate tutte le versioni dei dati, non è possibile ripristinare singole versioni. È necessario ripristinarle tutte.

Ripristinare tutte le versioni di un dato

Al momento, Studio AI della piattaforma Azure non supporta il ripristino di tutte le versioni dei dati con un nome specificato.

Ripristinare una versione specifica dei dati

Importante

Se sono state archiviate tutte le versioni del dato, non è possibile ripristinare singole versioni. È necessario ripristinarle tutte.

Attualmente, Studio AI della piattaforma Azure non supporta il ripristino di una versione dati specifica.

Assegnazione di tag ai dati

L'assegnazione di tag sono metadati aggiuntivi applicati sotto forma di coppia chiave-valore. L'assegnazione di tag ai dati offre numerosi vantaggi:

  • Descrizione della qualità dei dati. Ad esempio, se l'organizzazione usa un'architettura lakehouse medallion è possibile assegnare agli asset i tag medallion:bronze (non elaborato), medallion:silver (convalidato) e medallion:gold (arricchito).
  • Fornisce una ricerca e un filtro efficienti dei dati per facilitarne l'individuazione.
  • Consente di identificare dati personali sensibili o di gestire e regolamentare correttamente l'accesso ai dati. Ad esempio: sensitivity:PII/sensitivity:nonPII.
  • Identificare se i dati vengono approvati da un controllo di IA responsabile. Ad esempio: RAI_audit:approved/RAI_audit:todo.

È possibile aggiungere tag ai dati esistenti.

Anteprima dati

È possibile esplorare la struttura di cartelle e visualizzare in anteprima il file nella pagina Dettagli dati. È supportata l'anteprima dei dati per i tipi seguenti:

  • I tipi di file di dati saranno supportati tramite l'API di anteprima: ".tsv", ".csv", ".parquet", ".jsonl".
  • Altri tipi di file, l'interfaccia utente di Studio tenterà di visualizzare in anteprima il file nel browser in modo nativo. I tipi di file supportati possono quindi dipendere dal browser stesso. In genere, per le immagini sono supportati i formati ".png", ".jpg", ".gif". Sono solitamente supportati anche i formati ".ipynb", ".py", ".yml", ".html".

Passaggi successivi