Usare Python per gestire gli ACL in Azure Data Lake Storage
Questo articolo illustra come usare Python per ottenere, impostare e aggiornare gli elenchi di controllo di accesso di directory e file.
L'ereditarietà di ACL è già disponibile per i nuovi elementi figlio creati in una directory padre Ma è anche possibile aggiungere, aggiornare e rimuovere gli ACL in modo ricorsivo sugli elementi figlio esistenti di una directory padre senza dover apportare queste modifiche singolarmente per ogni elemento figlio.
Pacchetto (Indice pacchetto Python) | Esempi | Esempi ACL ricorsivi | Riferimento API | Mapping da Gen1 a Gen2 | Fornisci feedback
Prerequisiti
- Sottoscrizione di Azure: creare un account gratuito.
- Un account di archiviazione di Azure in cui è abilitato lo spazio dei nomi gerarchico (HNS). Per crearne uno, seguire queste istruzioni.
- Python 3.8+
- Interfaccia della riga di comando di Azure versione
2.6.0
o successiva. - Una delle autorizzazioni di sicurezza seguenti:
- Entità di sicurezza Microsoft Entra ID di cui è stato effettuato il provisioning a cui è stato assegnato il ruolo Proprietario dati BLOB di archiviazione, con ambito al contenitore di destinazione, all'account di archiviazione, al gruppo di risorse padre o alla sottoscrizione.
- Utente proprietario del contenitore o della directory di destinazione a cui si prevede di applicare le impostazioni ACL. Per impostare gli ACL in modo ricorsivo, include tutti gli elementi figlio nel contenitore o nella directory di destinazione.
- Chiave dell'account di archiviazione.
Impostare il progetto
Questa sezione illustra come preparare un progetto da usare con la libreria client di Azure Data Lake Storage per Python.
Nella directory del progetto installare i pacchetti per le librerie client di Azure Data Lake Storage e Azure Identity usando il comando pip install
. Il pacchetto azure-identity è necessario per le connessioni senza password ai servizi di Azure.
pip install azure-storage-file-datalake azure-identity
Aprire quindi il file di codice e aggiungere le istruzioni di importazione necessari. In questo esempio si aggiunge il codice seguente al file .py:
from azure.identity import DefaultAzureCredential
from azure.storage.filedatalake import DataLakeServiceClient
Effettuare la connessione all'account
Per eseguire gli esempi di codice in questo articolo, è necessario creare un'istanza di DataLakeServiceClient che rappresenta l'account di archiviazione. È possibile autorizzare l'oggetto client con le credenziali di Microsoft Entra ID o con una chiave dell'account.
È possibile usare la libreria client di identità di Azure per Python per autenticare l'applicazione con l'ID Microsoft Entra.
Nota
Se si usa Microsoft Entra ID per autorizzare l'accesso, assicurarsi che all'entità di sicurezza sia stato assegnato il ruolo Proprietario del BLOB di archiviazione. Per altre informazioni sull'applicazione delle autorizzazioni ACL e sugli effetti della modifica, vedere Modello di controllo di accesso in Azure Data Lake Storage.
Prima di tutto, assegnare uno dei seguenti ruoli di controllo degli accessi in base al ruolo di Azure (Azure RBAC) all'entità di sicurezza:
Ruolo | Funzionalità di impostazione ACL |
---|---|
Proprietario dei dati del BLOB di archiviazione | Tutte le directory e i file nell'account. |
Collaboratore ai dati del BLOB di archiviazione | Solo directory e file di proprietà dell'entità di sicurezza. |
Creare quindi un'istanza di DataLakeServiceClient e passare una nuova istanza della classe DefaultAzureCredential.
def get_service_client_token_credential(self, account_name) -> DataLakeServiceClient:
account_url = f"https://{account_name}.dfs.core.windows.net"
token_credential = DefaultAzureCredential()
service_client = DataLakeServiceClient(account_url, credential=token_credential)
return service_client
Per altre informazioni sull'uso di DefaultAzureCredential per autorizzare l'accesso ai dati, vedere Panoramica: Autenticare le app Python in Azure con Azure SDK.
Impostare gli ACL
Quando si imposta un ACL, sostituire l'intero ACL, incluse tutte le sue voci. Se si vuole modificare il livello di autorizzazione di un'entità di sicurezza o aggiungere una nuova entità di sicurezza all'ACL senza influire sulle altre voci esistenti, è consigliabile aggiornare invece l'ACL. Per aggiornare un elenco di controllo di accesso anziché sostituirlo, vedere la sezione Aggiornare gli ACL di questo articolo.
Questa sezione illustra come:
- Impostare l'ACL di una directory
- Impostare l'ACL di un file
Impostare l'ACL di una directory
Ottenere l'elenco di controllo di accesso (ACL) di una directory chiamando il metodo DataLakeDirectoryClient.get_access_control e impostare l'ACL chiamando il metodo DataLakeDirectoryClient.set_access_control.
Questo esempio ottiene e imposta l'ACL di una directory denominata my-directory
. La stringa rwxr-xrw-
concede all'utente le autorizzazioni di lettura, scrittura ed esecuzione proprietarie, concede al gruppo proprietario solo autorizzazioni di lettura ed esecuzione e concede a tutti gli altri utenti autorizzazioni di lettura e scrittura.
def manage_directory_permissions():
try:
file_system_client = service_client.get_file_system_client(file_system="my-file-system")
directory_client = file_system_client.get_directory_client("my-directory")
acl_props = directory_client.get_access_control()
print(acl_props['permissions'])
new_dir_permissions = "rwxr-xrw-"
directory_client.set_access_control(permissions=new_dir_permissions)
acl_props = directory_client.get_access_control()
print(acl_props['permissions'])
except Exception as e:
print(e)
È anche possibile ottenere e impostare l'ACL della directory radice di un contenitore. Per ottenere la directory radice, chiamare il metodo FileSystemClient._get_root_directory_client.
Impostare l'ACL di un file
Ottenere l'elenco di controllo di accesso (ACL) di un file chiamando il metodo DataLakeFileClient.get_access_control e impostando l'ACL chiamando il metodo DataLakeFileClient.set_access_control.
Questo esempio ottiene e imposta l'ACL di un file denominato my-file.txt
. La stringa rwxr-xrw-
concede all'utente le autorizzazioni di lettura, scrittura ed esecuzione proprietarie, concede al gruppo proprietario solo autorizzazioni di lettura ed esecuzione e concede a tutti gli altri utenti autorizzazioni di lettura e scrittura.
def manage_file_permissions():
try:
file_system_client = service_client.get_file_system_client(file_system="my-file-system")
directory_client = file_system_client.get_directory_client("my-directory")
file_client = directory_client.get_file_client("uploaded-file.txt")
acl_props = file_client.get_access_control()
print(acl_props['permissions'])
new_file_permissions = "rwxr-xrw-"
file_client.set_access_control(permissions=new_file_permissions)
acl_props = file_client.get_access_control()
print(acl_props['permissions'])
except Exception as e:
print(e)
Impostare ricorsivamente gli elenchi di controllo di accesso
Quando si imposta un ACL, sostituire l'intero ACL, incluse tutte le sue voci. Se si vuole modificare il livello di autorizzazione di un'entità di sicurezza o aggiungere una nuova entità di sicurezza all'ACL senza influire sulle altre voci esistenti, è consigliabile aggiornare invece l'ACL. Per aggiornare un elenco di controllo di accesso anziché sostituirlo, vedere la sezione Aggiornare gli ACL in modo ricorsivo di questo articolo.
Impostare gli ACL in modo ricorsivo chiamando il metodo DataLakeDirectoryClient.set_access_control_recursive.
Se si desidera impostare una voce ACL predefinita, aggiungere la stringa default:
all'inizio di ogni stringa di voce ACL.
In questo esempio viene impostato l'ACL di una directory denominata my-parent-directory
.
Questo metodo accetta un parametro booleano denominato is_default_scope
che specifica se impostare l'ACL predefinito. Se il parametro è True
, l'elenco di voci ACL è preceduto dalla stringa default:
. Le voci di questo esempio concedono le autorizzazioni seguenti: autorizzazioni di lettura, scrittura ed esecuzione per l'utente proprietario, le autorizzazioni di lettura ed esecuzione per il gruppo proprietario e le autorizzazioni di lettura per tutti gli altri. L'ultima voce ACL in questo esempio fornisce a un utente specifico le autorizzazioni di lettura dell'ID oggetto xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
.
def set_permission_recursively(is_default_scope):
try:
file_system_client = service_client.get_file_system_client(file_system="my-container")
directory_client = file_system_client.get_directory_client("my-parent-directory")
acl = 'user::rwx,group::r-x,other::r--,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'
if is_default_scope:
acl = 'default:user::rwx,default:group::r-x,default:other::r--,default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'
directory_client.set_access_control_recursive(acl=acl)
acl_props = directory_client.get_access_control()
print(acl_props['permissions'])
except Exception as e:
print(e)
Per un esempio che elabora gli ACL in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.
Aggiornare gli ACL in modo ricorsivo
Quando si aggiorna un ACL, si modifica l'ACL anziché sostituirlo. Ad esempio, è possibile aggiungere una nuova entità di sicurezza all'ACL senza influire sulle altre entità di sicurezza elencate nell'ACL. Per sostituire l'ACL invece di aggiornarlo, vedere la sezione Impostare gli ACL di questo articolo.
Per aggiornare un ACL in modo ricorsivo, creare un nuovo oggetto ACL con la voce ACL da aggiornare, quindi usare tale oggetto nell'operazione di aggiornamento ACL. Non ottenere l'ACL esistente, specificare solo le voci ACL da aggiornare. Aggiornare un elenco di controllo di accesso in modo ricorsivo chiamando il metodo DataLakeDirectoryClient.update_access_control_recursive. Se si vuole aggiornare una voce ACL predefinita, aggiungere la stringa default:
all'inizio di ogni stringa di voce ACL.
In questo esempio viene aggiornata una voce ACL con autorizzazione di scrittura.
In questo esempio viene impostato l'ACL di una directory denominata my-parent-directory
. Questo metodo accetta un parametro booleano denominato is_default_scope
che specifica se aggiornare l'ACL predefinito. Se il parametro è True
, la voce ACL aggiornata è preceduta dalla stringa default:
.
def update_permission_recursively(is_default_scope):
try:
file_system_client = service_client.get_file_system_client(file_system="my-container")
directory_client = file_system_client.get_directory_client("my-parent-directory")
acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'
if is_default_scope:
acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'
directory_client.update_access_control_recursive(acl=acl)
acl_props = directory_client.get_access_control()
print(acl_props['permissions'])
except Exception as e:
print(e)
Per un esempio che elabora gli ACL in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.
Rimuovere le voci ACL in modo ricorsivo
È possibile rimuovere una o più voci ACL. Per rimuovere le voci ACL in modo ricorsivo, creare un nuovo oggetto ACL per la voce ACL da rimuovere, quindi usare tale oggetto nell'operazione di rimozione dell'elenco di controllo di accesso. Non ottenere l'ACL esistente, specificare solo le voci ACL da rimuovere.
Rimuovere le voci ACL chiamando il metodo DataLakeDirectoryClient.remove_access_control_recursive. Se si desidera rimuovere una voce ACL predefinita, aggiungere la stringa default:
all'inizio della stringa di immissione ACL.
In questo esempio viene rimossa una voce ACL dall'ACL della directory denominata my-parent-directory
. Questo metodo accetta un parametro booleano denominato is_default_scope
che specifica se rimuovere la voce dall'ACL predefinito. Se il parametro è True
, la voce ACL aggiornata è preceduta dalla stringa default:
.
def remove_permission_recursively(is_default_scope):
try:
file_system_client = service_client.get_file_system_client(file_system="my-container")
directory_client = file_system_client.get_directory_client("my-parent-directory")
acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'
if is_default_scope:
acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'
directory_client.remove_access_control_recursive(acl=acl)
except Exception as e:
print(e)
Per un esempio che elabora gli ACL in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.
Ripristino da errori
Potrebbero verificarsi errori di runtime o di autorizzazione. Per gli errori di runtime, riavviare il processo dall'inizio. Gli errori di autorizzazione possono verificarsi se l'entità di sicurezza non dispone di autorizzazioni sufficienti per modificare l'ACL di una directory o di un file presente nella gerarchia di directory da modificare. Risolvere il problema di autorizzazione, quindi scegliere di riprendere il processo dal punto di errore usando un token di continuazione o riavviare il processo dall'inizio. Non è necessario usare il token di continuazione se si preferisce riavviare dall'inizio. È possibile riapplicare le voci ACL senza alcun impatto negativo.
In questo esempio viene restituito un token di continuazione in caso di errore. L'applicazione può chiamare di nuovo questo metodo di esempio dopo aver risolto l'errore e passare il token di continuazione. Se questo metodo di esempio viene chiamato per la prima volta, l'applicazione può passare un valore di None
per il parametro del token di continuazione.
def resume_set_acl_recursive(continuation_token):
try:
file_system_client = service_client.get_file_system_client(file_system="my-container")
directory_client = file_system_client.get_directory_client("my-parent-directory")
acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'
acl_change_result = directory_client.set_access_control_recursive(acl=acl, continuation=continuation_token)
continuation_token = acl_change_result.continuation
return continuation_token
except Exception as e:
print(e)
return continuation_token
Per un esempio che elabora gli ACL in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.
Se si desidera che il processo venga completato senza interruzioni dagli errori di autorizzazione, è possibile specificare tale fatto.
Per assicurarsi che il processo venga completato senza interruzioni, non passare un token di continuazione nel metodo DataLakeDirectoryClient.set_access_control_recursive.
Questo esempio imposta le voci ACL in modo ricorsivo. Se questo codice rileva un errore di autorizzazione, registra l'errore e continua l'esecuzione. In questo esempio viene stampato il numero di errori nella console.
def continue_on_failure():
try:
file_system_client = service_client.get_file_system_client(file_system="my-container")
directory_client = file_system_client.get_directory_client("my-parent-directory")
acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'
acl_change_result = directory_client.set_access_control_recursive(acl=acl)
print("Summary: {} directories and {} files were updated successfully, {} failures were counted."
.format(acl_change_result.counters.directories_successful, acl_change_result.counters.files_successful,
acl_change_result.counters.failure_count))
except Exception as e:
print(e)
Per un esempio che elabora gli ACL in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.
Procedure consigliate
Questa sezione fornisce alcune linee guida sulle procedure consigliate per l'impostazione degli ACL in modo ricorsivo.
Gestione degli errori di runtime
Un errore di runtime può verificarsi per molti motivi (ad esempio, un'interruzione o un problema di connettività client). Se si verifica un errore di runtime, riavviare il processo ACL ricorsivo. Gli ACL possono essere riapplicati agli elementi senza causare un impatto negativo.
Gestione degli errori di autorizzazione (403)
Se si verifica un'eccezione di controllo di accesso durante l'esecuzione di un processo ACL ricorsivo, l'entità di sicurezza di Active Directory potrebbe non disporre di autorizzazioni sufficienti per applicare un ACL a uno o più elementi figlio nella gerarchia di directory. Quando si verifica un errore di autorizzazione, il processo viene arrestato e viene fornito un token di continuazione. Risolvere il problema di autorizzazione, quindi usare il token di continuazione per elaborare il set di dati rimanente. Le directory e i file che sono già stati elaborati correttamente non dovranno essere elaborati di nuovo. È anche possibile scegliere di riavviare il processo ACL ricorsivo. Gli ACL possono essere riapplicati agli elementi senza causare un impatto negativo.
Credenziali
È consigliabile effettuare il provisioning di un'entità di sicurezza di Microsoft Entra assegnata al ruolo Proprietario dati BLOB di archiviazione nell'ambito dell'account di archiviazione o del contenitore di destinazione.
Prestazioni
Per ridurre la latenza, è consigliabile eseguire il processo ACL ricorsivo in una macchina virtuale di Azure che si trova nella stessa area dell'account di archiviazione.
Limiti ACL
Il numero massimo di ACL che è possibile applicare a una directory o a un file è 32 ACL di accesso e 32 ACL predefiniti. Per altre informazioni, vedere Access control in Azure Data Lake Storage Gen2 (Controllo di accesso in Azure Data Lake Storage Gen2).