Amministrazione dati

Articolo
05/06/2024

Informazioni su come gestire l'accesso ai dati e come eseguire l'autenticazione in Azure Machine Learning.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Importante

Questo articolo è destinato agli amministratori di Azure che intendono creare l'infrastruttura necessaria per una soluzione Azure Machine Learning.

Autenticazione dei dati basata sulle credenziali

In generale, l'autenticazione dei dati basata sulle credenziali prevede questi controlli:

All'utente che accede ai dati dall'archivio dati basato su credenziali è stato assegnato un ruolo con il controllo degli accessi in base al ruolo che contiene Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?
- Questa autorizzazione è necessaria per recuperare le credenziali dall'archivio dati per l'utente.
- I ruoli predefiniti che contengono questa autorizzazione sono già Collaboratore, Sviluppatore di intelligenza artificiale di Azure o Azure Machine Learning Scienziato dei dati. In alternativa, se viene applicato un ruolo personalizzato, è necessario assicurarsi che questa autorizzazione venga aggiunta a tale ruolo personalizzato.
- È necessario sapere quale utente specifico sta tentando di accedere ai dati. Può essere un utente reale con un'identità utente o un computer con identità gestita di calcolo.IT can be a real user identity or a computer with compute managed identity (MSI). Vedere la sezione Scenari e opzioni di autenticazione per identificare l'identità per cui è necessario aggiungere l'autorizzazione.
Le credenziali archiviate (entità servizio, chiave dell'account o token di firma di accesso condiviso) hanno accesso alla risorsa dati?

Autenticazione dei dati basata su identità

In generale, l'autenticazione dei dati basata sull'identità prevede questi controlli:

Quale utente vuole accedere alle risorse?
- A seconda del contesto in cui si accede ai dati, sono disponibili diversi tipi di autenticazione, ad esempio:
  - Identità utente
  - Identità gestita di calcolo
  - Identità gestita dell'area di lavoro
- I processi, inclusa l'opzione set di dati Generate Profile , vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità gestita di calcolo richiede l'autorizzazione per la risorsa di archiviazione, anziché l'identità dell'utente che ha inviato il processo.
- Per l'autenticazione basata su un'identità utente, è necessario conoscere quale utente specifico ha provato ad accedere alla risorsa di archiviazione. Per altre informazioni sull'autenticazione utente , vedere Autenticazione per Azure Machine Learning. Per altre informazioni sull'autenticazione a livello di servizio, vedere Autenticazione tra Azure Machine Learning e altri servizi.
L'utente è autorizzato per la lettura?
- L'identità utente o l'identità gestita di calcolo hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando il controllo degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- Lettore di dati BLOB di archiviazione legge ed elenca i contenitori di archiviazione e i BLOB.
- Per altre informazioni, vedere Ruoli predefiniti di Azure per l'archiviazione.
L'utente è autorizzato per la scrittura?
- L'identità utente o l'identità gestita di calcolo hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando il controllo degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- Il Collaboratore ai dati del BLOB di archiviazione legge, scrive ed elimina i contenitori e BLOB di Archiviazione di Azure.
- Per altre informazioni, vedere Ruoli predefiniti di Azure per l'archiviazione.

Altri controlli generali per l'autenticazione

Da dove proviene l'accesso?
- Utente: l'indirizzo IP del client è compreso nell'intervallo di rete virtuale/subnet?
- Area di lavoro: l'area di lavoro è pubblica o ha un endpoint privato in una rete virtuale/subnet?
- Archiviazione: l'archiviazione consente l'accesso pubblico o limita l'accesso tramite un endpoint di servizio o un endpoint privato?
Quale operazione verrà eseguita?
- Azure Machine Learning gestisce operazioni di creazione, lettura, aggiornamento ed eliminazione (CRUD) su un archivio dati/set di dati.
- Le operazioni di archiviazione sugli asset di dati in studio di Azure Machine Learning richiedono questa operazione di controllo degli accessi in base al ruolo:Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Le chiamate di accesso ai dati (ad esempio, anteprima o schema) passano alla risorsa di archiviazione sottostante e necessitano di autorizzazioni aggiuntive.
Questa operazione verrà eseguita nelle risorse di calcolo o nelle risorse di calcolo della sottoscrizione di Azure ospitate in una sottoscrizione Microsoft?
- Tutte le chiamate ai servizi del set di dati e dell'archivio dati (ad eccezione dell'opzione Generate Profile ) usano le risorse ospitate in una sottoscrizione Microsoft per eseguire le operazioni.
- I processi, inclusa l'opzione set di dati Generate Profile , vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità di calcolo richiede l'autorizzazione per la risorsa di archiviazione, anziché l'identità dell'utente che ha inviato il processo.

Questo diagramma mostra il flusso generale di una chiamata di accesso ai dati. In questo caso, un utente tenta di effettuare una chiamata di accesso ai dati tramite un'area di lavoro di Machine Learning, senza usare una risorsa di calcolo.

Diagramma che mostra il flusso logico durante l'accesso ai dati.

Scenari e opzioni di autenticazione

Questa tabella elenca le identità da usare per scenari specifici.

Impostazione	Macchina virtuale locale/notebook SDK	Posizione	Anteprima set di dati	Esplorazione dell'archivio dati
Credenziali e identità del servizio gestito dell'area di lavoro	Credenziale	Credenziale	Identità del servizio gestito dell'area di lavoro	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
Nessuna credenziale e identità del servizio gestita dell'area di lavoro	Calcolo dell'identità del servizio gestito/utente	Calcolo dell'identità del servizio gestito/utente	Identità del servizio gestito dell'area di lavoro	Identità utente
Credenziali e nessun'identità del servizio gestito dell'area di lavoro	Credenziale	Credenziale	Credenziali (non supportate per l'anteprima del set di dati nella rete privata)	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
Nessuna credenziale e nessun'identità del servizio gestito dell'area di lavoro	Calcolo dell'identità del servizio gestito/utente	Calcolo dell'identità del servizio gestito/utente	Identità utente	Identità utente

Per SDK V1, l'autenticazione dei dati in un processo usa sempre l'identità del servizio gestito di calcolo. Per SDK V2, l'autenticazione dei dati in un processo dipende dall'impostazione del processo. Può essere l'identità utente o calcolare l'identità del servizio gestito in base all'impostazione.

Suggerimento

Per accedere ai dati dall'esterno di Machine Learning, ad esempio, con Archiviazione di Azure Explorer, l'accesso probabilmente si basa sull'identità utente. Per informazioni specifiche, vedere la documentazione relativa allo strumento o al servizio in uso. Per altre informazioni sul funzionamento di Machine Learning con i dati, vedere Configurare l'autenticazione tra Azure Machine Learning e altri servizi.

Requisiti specifici della rete virtuale

Le informazioni seguenti consentono di configurare l'autenticazione dei dati per accedere ai dati dietro una rete virtuale da un'area di lavoro di Machine Learning.

Aggiungere autorizzazioni di un account di archiviazione a un'identità gestita dell'area di lavoro di Machine Learning

Quando si usa un account di archiviazione dallo studio, se si vuole visualizzare l'anteprima del set di dati, è necessario abilitare Usa l'identità gestita dell'area di lavoro per l'anteprima dei dati e la profilatura in studio di Azure Machine Learning nell'impostazione dell'archivio dati. Aggiungere quindi i ruoli controllo degli accessi in base al ruolo di Azure seguenti dell'account di archiviazione all'identità gestita dell'area di lavoro:

Lettore dati dei BLOB
Se l'account di archiviazione usa un endpoint privato per connettersi alla rete virtuale, è necessario concedere il ruolo Lettore per l'endpoint privato dell'account di archiviazione all'identità gestita.

Per altre informazioni, vedere Usare studio di Azure Machine Learning in una rete virtuale di Azure.

Le sezioni seguenti illustrano le limitazioni dell'uso di un account di archiviazione, con l'area di lavoro, in una rete virtuale.

Proteggere la comunicazione con un account di archiviazione

Per proteggere la comunicazione tra Machine Learning e gli account di archiviazione, configurare l'archiviazione per concedere l'accesso ai servizi di Azure attendibili.

Firewall di Archiviazione di Azure

Quando un account di archiviazione si trova dietro una rete virtuale, il firewall di archiviazione può in genere essere usato per consentire al client di connettersi direttamente tramite Internet. Tuttavia, quando si usa lo studio, il client non si connette all'account di archiviazione. Il servizio Machine Learning che effettua la richiesta si connette all'account di archiviazione. L'indirizzo IP del servizio non è documentato e cambia di frequente. L'abilitazione del firewall di archiviazione non consentirà allo studio di accedere all'account di archiviazione in una configurazione di rete virtuale.

Tipo di endpoint di Archiviazione di Azure

Quando l'area di lavoro usa un endpoint privato e l'account di archiviazione si trova anche nella rete virtuale, si verificano requisiti di convalida aggiuntivi quando si usa lo studio:

Se l'account di archiviazione usa un endpoint di servizio, l'endpoint privato dell'area di lavoro e l'endpoint del servizio di archiviazione devono trovarsi nella stessa subnet della rete virtuale.
Se l'account di archiviazione usa un endpoint privato, l'endpoint privato dell'area di lavoro e l'endpoint privato di archiviazione devono trovarsi nella stessa rete virtuale. In questo caso, possono trovarsi in subnet diverse.

Azure Data Lake Storage Gen1

Quando si usa Azure Data Lake Storage Gen1 come archivio dati, è possibile usare solo elenchi di controllo di accesso in stile POSIX. È possibile assegnare all'identità gestita dell'area di lavoro l'accesso alle risorse, come qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Controllo di accesso in Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Quando si usa Azure Data Lake Storage Gen2 come archivio dati, è possibile usare elenchi di controllo degli accessi in base al ruolo di Azure e elenchi di controllo di accesso in stile POSIX (ACL) per controllare l'accesso ai dati all'interno di una rete virtuale.

Per usare il controllo degli accessi in base al ruolo di Azure: seguire la procedura descritta in Archivio dati: Archiviazione di Azure account. Data Lake Storage Gen2 si basa su Archiviazione di Azure, quindi si applicano gli stessi passaggi quando si usa il controllo degli accessi in base al ruolo di Azure.
Per usare elenchi di controllo di accesso: l'identità gestita dell'area di lavoro può essere assegnata come qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Elenchi di controllo di accesso per file e directory.

Passaggi successivi

Per informazioni su come abilitare lo studio in una rete, vedere Usare studio di Azure Machine Learning in una rete virtuale di Azure.

Condividi tramite