Amministrazione dati

Articolo
10/16/2024

Informazioni su come gestire l'accesso ai dati ed eseguire l'autenticazione in Azure Machine Learning.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Importante

Questo articolo è destinato agli amministratori di Azure che intendono creare l'infrastruttura necessaria per una soluzione Azure Machine Learning.

Autenticazione dei dati basata sulle credenziali

In generale, l'autenticazione dei dati basata sulle credenziali prevede questi controlli:

Assicurarsi che all'utente che accede ai dati dall'archivio dati basato su credenziali sia stato assegnato un ruolo con Controllo degli accessi in base al ruolo (RBAC) che contenga Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action
- Questa autorizzazione è necessaria per recuperare le credenziali dall'archivio dati per l'utente.
- Ruoli predefiniti che contengono già questa autorizzazione:
  - Collaboratore
  - Sviluppatore di Azure per intelligenza artificiale
  - Scienziato dei dati di Azure Machine Learning
  - In alternativa, se viene applicato un ruolo personalizzato, questa autorizzazione deve essere aggiunta a tale ruolo personalizzato
- È necessario conoscere quale utente specifico vuole accedere ai dati. Un utente specifico può essere un utente reale con un'identità utente. Può anche essere un computer con identità gestita dell'ambiente di calcolo (MSI). Per altre informazioni, visitare la sezione Scenari e opzioni di autenticazione per determinare l'identità che necessita dell'autorizzazione aggiuntiva.
Le credenziali archiviate (entità servizio, chiave dell'account o token di firma di accesso condiviso) hanno accesso alla risorsa dati?

Autenticazione dei dati basata su identità

In generale, l'autenticazione dei dati basata sull'identità prevede questi controlli:

Quale utente vuole accedere alle risorse?
- Sono disponibili diversi tipi di autenticazione, a seconda del contesto al momento dell'accesso ai dati. Ad esempio:
  - Identità utente
  - Identità gestita di calcolo
  - Identità gestita dell'area di lavoro
- I processi, inclusa l'opzione del set di dati Generate Profile, vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità gestita dell'ambiente di calcolo richiede l'autorizzazione per accedere alla risorsa di archiviazione, invece dell'identità dell'utente che ha inviato il processo.
- Per l'autenticazione basata su un'identità utente, è necessario conoscere quale utente specifico ha provato ad accedere alla risorsa di archiviazione. Per altre informazioni sull'autenticazione utente, vedere Autenticazione per Azure Machine Learning. Per altre informazioni sull'autenticazione a livello di servizio, vedere Autenticazione tra Azure Machine Learning e altri servizi.
L'utente ha l'autorizzazione di lettura per la risorsa?
- L'identità utente o l'identità gestita di calcolo hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando il controllo degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- Lettore dei dati di BLOB di archiviazione legge ed elenca contenitori e BLOB di archiviazione.
- Il lettore con privilegi per i dati dei file di archiviazione legge ed elenca i file e le directory nelle condivisioni di File di Azure.
- Per altre informazioni, vedere Ruoli predefiniti per archiviazione.
L'utente ha l'autorizzazione di scrittura per la risorsa?
- L'identità utente o l'identità gestita di calcolo hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando il controllo degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- Il Collaboratore ai dati del BLOB di archiviazione legge, scrive ed elimina i contenitori e BLOB di Archiviazione di Azure.
- Il collaboratore con privilegi per i dati dei file di archiviazione legge, scrive, elimina e modifica gli elenchi di controllo di accesso sui file e sulle directory nelle condivisioni di File di Azure.
- Per altre informazioni, vedere Ruoli predefiniti per archiviazione.

Altri controlli generali per l'autenticazione

A cosa accederà esattamente la risorsa?
- Utente: l'indirizzo IP del client è compreso nell'intervallo di rete virtuale/subnet?
- Area di lavoro: l'area di lavoro è pubblica o presenta un endpoint privato in una rete virtuale/subnet?
- Archiviazione: l'archiviazione consente l'accesso pubblico o limita l'accesso tramite un endpoint servizio o un endpoint privato?
Qual è l'operazione pianificata?
- Azure Machine Learning gestisce le operazioni
  - Crea
  - Lettura
  - Aggiornamento
  - Delete (CRUD) in un archivio dati/set di dati.
- Le operazioni di archiviazione su asset di dati nello studio di Azure Machine Learning richiedono questa operazione di controllo degli accessi in base al ruolo: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Le chiamate di accesso ai dati (ad esempio, anteprima o schema) passano alla risorsa di archiviazione sottostante e necessitano di autorizzazioni aggiuntive.
Questa operazione verrà eseguita nelle risorse di calcolo di una sottoscrizione di Azure o nelle risorse ospitate in una sottoscrizione Microsoft?
- Tutte le chiamate ai servizi del set di dati e dell'archivio dati (ad eccezione dell'opzione Generate Profile) usano le risorse ospitate in una sottoscrizione Microsoft per eseguire le operazioni.
- I processi, inclusa l'opzione del set di dati Generate Profile, vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità di calcolo richiede l'autorizzazione per la risorsa di archiviazione, invece dell'identità dell'utente che ha inviato il processo.

Questo diagramma mostra il flusso generale di una chiamata di accesso ai dati. In questo caso un utente prova a effettuare una chiamata di accesso ai dati tramite un'area di lavoro di Machine Learning, senza usare una risorsa di calcolo.

Diagramma che mostra il flusso logico durante l'accesso ai dati.

Scenari e opzioni di autenticazione

Questa tabella elenca le identità da usare per scenari specifici:

Impostazione	Macchina virtuale con SDK locale/notebook	Posizione	Anteprima set di dati	Esplorazione dell'archivio dati
Credenziali + MSI dell'area di lavoro	Credenziale	Credenziale	Identità del servizio gestito dell'area di lavoro	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
No credenziali + MSI dell’area di lavoro	Calcolo MSI/Identità utente	Calcolo MSI/Identità utente	Identità del servizio gestito dell'area di lavoro	Identità utente
Credenziali + No MSI dell’area di lavoro	Credenziale	Credenziale	Credenziali (non supportate per l'anteprima del set di dati nella rete privata)	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
No credenziali + No MSI dell’area di lavoro	MSI di calcolo/Identità utente	MSI di calcolo/Identità utente	Identità utente	Identità utente

Per SDK V1, l'autenticazione dei dati in un processo usa sempre l’MSI di calcolo. Per SDK V2, l'autenticazione dei dati in un processo dipende dall'impostazione del processo. Può trattarsi dell'identità utente o dell’MSI di calcolo, a seconda di tale impostazione del processo.

Suggerimento

L’accesso ai dati dall'esterno di Machine Learning, ad esempio con Azure Storage Explorer, si basa probabilmente sull'identità utente. Per informazioni specifiche, vedere la documentazione relativa allo strumento o al servizio che si prevede di usare. Per altre informazioni sul funzionamento di Machine Learning con i dati, vedere Configurare l'autenticazione tra Azure Machine Learning e altri servizi.

Requisiti specifici della rete virtuale

Queste informazioni consentono di configurare l'autenticazione dei dati dalle aree di lavoro di Machine Learning per accedere ai dati dietro una rete virtuale.

Aggiungere autorizzazioni di un account di archiviazione a un'identità gestita dell'area di lavoro di Machine Learning

Quando si usa un account di archiviazione dallo studio, se si vuole visualizzare l'anteprima del set di dati, è necessario abilitare Usa l'identità gestita dell'area di lavoro per l'anteprima e la profilatura dei dati nello studio di Azure Machine Learning nell'impostazione dell'archivio dati. Aggiungere quindi questi ruoli di Controllo degli accessi in base al ruolo di Azure dell'account di archiviazione all'identità gestita dell'area di lavoro:

Lettore dati dei BLOB
Se l'account di archiviazione usa un endpoint privato per connettersi alla rete virtuale, è necessario concedere all'identità gestita il ruolo Lettore per l'endpoint privato dell'account di archiviazione.

Per altre informazioni, vedere Usare lo studio di Azure Machine Learning in una rete virtuale di Azure.

Queste sezioni illustrano le limitazioni associate all'uso di un account di archiviazione con l'area di lavoro in una rete virtuale.

Proteggere la comunicazione con un account di archiviazione

Per proteggere la comunicazione tra Machine Learning e gli account di archiviazione, configurare l'archiviazione in modo da concedere l'accesso a servizi di Azure attendibili.

Firewall di Archiviazione di Azure

Per un account di archiviazione situato dietro una rete virtuale, il firewall di archiviazione può solitamente consentire al client di connettersi direttamente tramite Internet. Tuttavia, quando si usa lo studio, il client non si connette all'account di archiviazione. Il servizio Machine Learning che effettua la richiesta si connette all'account di archiviazione. L'indirizzo IP del servizio non è documentato e cambia di frequente. L'abilitazione del firewall di archiviazione non consente allo studio di accedere all'account di archiviazione in una configurazione di rete virtuale.

Tipo di endpoint di Archiviazione di Azure

Quando l'area di lavoro usa un endpoint privato e l'account di archiviazione si trova anche nella rete virtuale, sono previsti requisiti di convalida aggiuntivi nell’uso dello studio.

Se l'account di archiviazione usa un endpoint servizio, l'endpoint privato dell'area di lavoro e l'endpoint servizio di archiviazione devono trovarsi nella medesima subnet della rete virtuale.
Se l'account di archiviazione usa un endpoint privato, l'endpoint privato dell'area di lavoro e l'endpoint privato di archiviazione devono trovarsi nella medesima rete virtuale. In questo caso, possono trovarsi in subnet diverse.

Azure Data Lake Storage Gen1

Quando si usa Azure Data Lake Storage Gen1 come archivio dati, è possibile usare solo elenchi di controllo di accesso di tipo POSIX. È possibile assegnare all'identità gestita dell'area di lavoro l'accesso alle risorse come a qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Controllo di accesso in Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Quando si usa Azure Data Lake Storage Gen2 come archivio dati, è possibile usare il controllo degli accessi in base al ruolo di Azure e gli elenchi di controllo di accesso (ACL) di tipo POSIX per controllare l'accesso ai dati all'interno di una rete virtuale.

Per usare il controllo degli accessi in base al ruolo di Azure: seguire la procedura descritta in Archivio dati: account di archiviazione di Azure. Data Lake Storage Gen2 è basato su Archiviazione di Azure, quindi si può seguire la stessa procedura anche quando si usa il controllo degli accessi in base al ruolo di Azure.
Per usare elenchi di controllo di accesso: è possibile assegnare l'accesso all'identità gestita dell'area di lavoro come a qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Elenchi di controllo di accesso per file e directory.

Passaggi successivi

Per informazioni su come abilitare lo studio in una rete, vedere Usare lo studio di Azure Machine Learning in una rete virtuale di Azure.

Condividi tramite