Share via


Usare Python per gestire gli elenchi di controllo di accesso in Azure Data Lake Archiviazione Gen2

Questo articolo illustra come usare Python per ottenere, impostare e aggiornare gli elenchi di controllo di accesso di directory e file.

L'ereditarietà ACL è già disponibile per i nuovi elementi figlio creati in una directory padre. Ma è anche possibile aggiungere, aggiornare e rimuovere gli ACL in modo ricorsivo sugli elementi figlio esistenti di una directory padre senza dover apportare queste modifiche singolarmente per ogni elemento figlio.

Package (Python Package Index) | Samples Recursive ACL samples | | API reference | Gen1 to Gen2 mapping | Give Feedback

Prerequisiti

  • Una sottoscrizione di Azure. Per altre informazioni, vedere Ottenere la versione di valutazione gratuita di Azure.

  • Un account di archiviazione in cui è abilitato lo spazio dei nomi gerarchico. Per crearne uno, seguire queste istruzioni.

  • Interfaccia della riga di comando di Azure versione 2.6.0 o successiva.

  • Una delle autorizzazioni di sicurezza seguenti:

    • Entità di sicurezza microsoft Entra ID di cui è stato effettuato il provisioning a cui è stato assegnato il ruolo proprietario dei dati BLOB Archiviazione, con ambito al contenitore di destinazione, all'account di archiviazione, al gruppo di risorse padre o alla sottoscrizione.

    • Proprietario dell'utente del contenitore o della directory di destinazione a cui si prevede di applicare le impostazioni ACL. Per impostare gli elenchi di controllo di accesso in modo ricorsivo, sono inclusi tutti gli elementi figlio nel contenitore o nella directory di destinazione.

    • Archiviazione chiave dell'account.

Impostare il progetto

Installare la libreria client di Azure Data Lake Archiviazione per Python usando pip.

pip install azure-storage-file-datalake

Aggiungere queste istruzioni import all'inizio del file di codice.

from azure.storage.filedatalake import DataLakeServiceClient
from azure.identity import DefaultAzureCredential

Effettuare la connessione all'account

Per usare i frammenti di codice in questo articolo, è necessario creare un'istanza di DataLakeServiceClient che rappresenta l'account di archiviazione.

Connessione utilizzando Microsoft Entra ID

Nota

Se si usa Microsoft Entra ID per autorizzare l'accesso, assicurarsi che all'entità di sicurezza sia stato assegnato il ruolo di proprietario dei dati BLOB Archiviazione. Per altre informazioni sull'applicazione delle autorizzazioni ACL e sugli effetti della modifica, vedere Modello di controllo di accesso in Azure Data Lake Archiviazione Gen2.

È possibile usare la libreria client di identità di Azure per Python per autenticare l'applicazione con l'ID Microsoft Entra.

Prima di tutto, è necessario assegnare uno dei ruoli di controllo degli accessi in base al ruolo di Azure seguenti all'entità di sicurezza:

Ruolo Funzionalità di impostazione ACL
Proprietario dei dati del BLOB di archiviazione Tutte le directory e i file nell'account.
Collaboratore ai dati del BLOB di archiviazione Solo directory e file di proprietà dell'entità di sicurezza.

Creare quindi un'istanza di DataLakeServiceClient e passare una nuova istanza della classe DefaultAzureCredential.

def get_service_client_token_credential(self, account_name) -> DataLakeServiceClient:
    account_url = f"https://{account_name}.dfs.core.windows.net"
    token_credential = DefaultAzureCredential()

    service_client = DataLakeServiceClient(account_url, credential=token_credential)

    return service_client

Per altre informazioni sull'uso di DefaultAzureCredential per autorizzare l'accesso ai dati, vedere Panoramica: Autenticare le app Python in Azure con Azure SDK.

Connessione usando una chiave dell'account

È possibile autorizzare l'accesso ai dati usando le chiavi di accesso dell'account (chiave condivisa). In questo esempio viene creata un'istanza di DataLakeServiceClient autorizzata con la chiave dell'account.

def get_service_client_account_key(self, account_name, account_key) -> DataLakeServiceClient:
    account_url = f"https://{account_name}.dfs.core.windows.net"
    service_client = DataLakeServiceClient(account_url, credential=account_key)

    return service_client

Attenzione

L'autorizzazione con chiave condivisa non è consigliata perché potrebbe essere meno sicura. Per una sicurezza ottimale, disabilitare l'autorizzazione tramite chiave condivisa per l'account di archiviazione, come descritto in Impedire l'autorizzazione con chiave condivisa per un account Archiviazione di Azure.

L'uso di chiavi di accesso e stringa di connessione deve essere limitato alle app di verifica iniziali o ai prototipi di sviluppo che non accedono a dati sensibili o di produzione. In caso contrario, le classi di autenticazione basate su token disponibili in Azure SDK devono essere sempre preferite quando si esegue l'autenticazione alle risorse di Azure.

Microsoft consiglia ai client di usare l'ID Microsoft Entra o una firma di accesso condiviso per autorizzare l'accesso ai dati in Archiviazione di Azure. Per altre informazioni, vedere Autorizzare le operazioni per l'accesso ai dati.

Impostare gli elenchi di controllo di accesso

Quando si imposta un elenco di controllo di accesso, sostituire l'intero ACL, incluse tutte le relative voci. Se si vuole modificare il livello di autorizzazione di un'entità di sicurezza o aggiungere una nuova entità di sicurezza all'elenco di controllo di accesso senza influire sulle altre voci esistenti, è consigliabile aggiornare invece l'ACL. Per aggiornare un elenco di controllo di accesso anziché sostituirlo, vedere la sezione Aggiornare gli elenchi di controllo di accesso di questo articolo.

Questa sezione illustra come:

  • Impostare l'elenco di controllo di accesso di una directory
  • Impostare l'ACL di un file

Impostare l'elenco di controllo di accesso di una directory

Ottenere l'elenco di controllo di accesso (ACL) di una directory chiamando il metodo DataLakeDirectoryClient.get_access_control e impostando l'ACL chiamando il metodo DataLakeDirectoryClient.set_access_control .

Questo esempio ottiene e imposta l'ACL di una directory denominata my-directory. La stringa rwxr-xrw- concede all'utente le autorizzazioni di lettura, scrittura ed esecuzione proprietarie, concede al gruppo proprietario solo autorizzazioni di lettura ed esecuzione e concede a tutti gli altri utenti autorizzazioni di lettura e scrittura.

def manage_directory_permissions():
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-file-system")

        directory_client = file_system_client.get_directory_client("my-directory")
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])
        
        new_dir_permissions = "rwxr-xrw-"
        
        directory_client.set_access_control(permissions=new_dir_permissions)
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])
    
    except Exception as e:
     print(e)

È anche possibile ottenere e impostare l'ACL della directory radice di un contenitore. Per ottenere la directory radice, chiamare il metodo FileSystemClient._get_root_directory_client .

Impostare l'ACL di un file

Ottenere l'elenco di controllo di accesso (ACL) di un file chiamando il metodo DataLakeFileClient.get_access_control e impostando l'ACL chiamando il metodo DataLakeFileClient.set_access_control .

Questo esempio ottiene e imposta l'ACL di un file denominato my-file.txt. La stringa rwxr-xrw- concede all'utente le autorizzazioni di lettura, scrittura ed esecuzione proprietarie, concede al gruppo proprietario solo autorizzazioni di lettura ed esecuzione e concede a tutti gli altri utenti autorizzazioni di lettura e scrittura.

def manage_file_permissions():
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-file-system")

        directory_client = file_system_client.get_directory_client("my-directory")
        
        file_client = directory_client.get_file_client("uploaded-file.txt")

        acl_props = file_client.get_access_control()
        
        print(acl_props['permissions'])
        
        new_file_permissions = "rwxr-xrw-"
        
        file_client.set_access_control(permissions=new_file_permissions)
        
        acl_props = file_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

Impostare ricorsivamente gli elenchi di controllo di accesso

Quando si imposta un elenco di controllo di accesso, sostituire l'intero ACL, incluse tutte le relative voci. Se si vuole modificare il livello di autorizzazione di un'entità di sicurezza o aggiungere una nuova entità di sicurezza all'elenco di controllo di accesso senza influire sulle altre voci esistenti, è consigliabile aggiornare invece l'ACL. Per aggiornare un elenco di controllo di accesso anziché sostituirlo, vedere la sezione Aggiornare gli ACL in modo ricorsivo di questo articolo.

Impostare gli ACL in modo ricorsivo chiamando il metodo DataLakeDirectoryClient.set_access_control_recursive .

Se si desidera impostare una voce ACL predefinita , aggiungere la stringa default: all'inizio di ogni stringa di voce ACL.

In questo esempio viene impostato l'elenco di controllo di accesso di una directory denominata my-parent-directory.

Questo metodo accetta un parametro booleano denominato is_default_scope che specifica se impostare l'ACL predefinito. Se il parametro è True, l'elenco di voci ACL è preceduto dalla stringa default:. Le voci di questo esempio concedono le autorizzazioni seguenti: autorizzazioni di lettura, scrittura ed esecuzione per l'utente proprietario, le autorizzazioni di lettura ed esecuzione per il gruppo proprietario e le autorizzazioni di lettura per tutti gli altri. L'ultima voce ACL in questo esempio fornisce a un utente specifico le autorizzazioni di lettura dell'ID xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx oggetto.

def set_permission_recursively(is_default_scope):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")

        acl = 'user::rwx,group::r-x,other::r--,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'   

        if is_default_scope:
           acl = 'default:user::rwx,default:group::r-x,default:other::r--,default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        directory_client.set_access_control_recursive(acl=acl)
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

Per un esempio che elabora gli elenchi di controllo di accesso in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.

Aggiornare gli elenchi di controllo di accesso in modo ricorsivo

Quando si aggiorna un ACL, si modifica l'ACL anziché sostituire l'ACL. Ad esempio, è possibile aggiungere una nuova entità di sicurezza all'elenco di controllo di accesso senza influire sulle altre entità di sicurezza elencate nell'elenco di controllo di accesso. Per sostituire l'ACL invece di aggiornarlo, vedere la sezione Impostare elenchi di controllo di accesso di questo articolo.

Per aggiornare un ACL in modo ricorsivo, creare un nuovo oggetto ACL con la voce ACL da aggiornare e quindi usare tale oggetto nell'operazione di aggiornamento ACL. Non ottenere l'ACL esistente, specificare solo le voci ACL da aggiornare. Aggiornare un elenco di controllo di accesso in modo ricorsivo chiamando il metodo DataLakeDirectoryClient.update_access_control_recursive . Se si vuole aggiornare una voce ACL predefinita , aggiungere la stringa default: all'inizio di ogni stringa di voce ACL.

In questo esempio viene aggiornata una voce ACL con autorizzazione di scrittura.

In questo esempio viene impostato l'elenco di controllo di accesso di una directory denominata my-parent-directory. Questo metodo accetta un parametro booleano denominato is_default_scope che specifica se aggiornare l'ACL predefinito. se il parametro è True, la voce ACL aggiornata è preceduta dalla stringa default:.

def update_permission_recursively(is_default_scope):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'   

        if is_default_scope:
           acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'

        directory_client.update_access_control_recursive(acl=acl)

        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

Per un esempio che elabora gli elenchi di controllo di accesso in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.

Rimuovere le voci ACL in modo ricorsivo

È possibile rimuovere una o più voci ACL. Per rimuovere le voci ACL in modo ricorsivo, creare un nuovo oggetto ACL per la voce ACL da rimuovere e quindi usare tale oggetto nell'operazione di rimozione dell'elenco di controllo di accesso. Non ottenere l'ACL esistente, specificare solo le voci ACL da rimuovere.

Rimuovere le voci ACL chiamando il metodo DataLakeDirectoryClient.remove_access_control_recursive . Se si desidera rimuovere una voce ACL predefinita , aggiungere la stringa default: all'inizio della stringa di immissione ACL.

In questo esempio viene rimossa una voce ACL dall'ACL della directory denominata my-parent-directory. Questo metodo accetta un parametro booleano denominato is_default_scope che specifica se rimuovere la voce dall'ACL predefinito. se il parametro è True, la voce ACL aggiornata è preceduta dalla stringa default:.

def remove_permission_recursively(is_default_scope):

    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")

        acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'

        if is_default_scope:
           acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'

        directory_client.remove_access_control_recursive(acl=acl)

    except Exception as e:
     print(e)

Per un esempio che elabora gli elenchi di controllo di accesso in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.

Ripristino da errori

Potrebbero verificarsi errori di runtime o di autorizzazione. Per gli errori di runtime, riavviare il processo dall'inizio. Gli errori di autorizzazione possono verificarsi se l'entità di sicurezza non dispone di autorizzazioni sufficienti per modificare l'elenco di controllo di accesso di una directory o di un file presente nella gerarchia di directory da modificare. Risolvere il problema di autorizzazione e quindi scegliere di riprendere il processo dal punto di errore usando un token di continuazione o riavviare il processo dall'inizio. Non è necessario usare il token di continuazione se si preferisce riavviare dall'inizio. È possibile riapplicare le voci ACL senza alcun impatto negativo.

In questo esempio viene restituito un token di continuazione in caso di errore. L'applicazione può chiamare di nuovo questo metodo di esempio dopo aver risolto l'errore e passare il token di continuazione. Se questo metodo di esempio viene chiamato per la prima volta, l'applicazione può passare un valore di per il parametro del token di None continuazione.

def resume_set_acl_recursive(continuation_token):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        acl_change_result = directory_client.set_access_control_recursive(acl=acl, continuation=continuation_token)

        continuation_token = acl_change_result.continuation

        return continuation_token
        
    except Exception as e:
     print(e) 
     return continuation_token

Per un esempio che elabora gli elenchi di controllo di accesso in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.

Se si desidera che il processo venga completato senza interruzioni dagli errori di autorizzazione, è possibile specificarlo.

Per assicurarsi che il processo venga completato senza interruzioni, non passare un token di continuazione nel metodo DataLakeDirectoryClient.set_access_control_recursive .

Questo esempio imposta le voci ACL in modo ricorsivo. Se questo codice rileva un errore di autorizzazione, registra l'errore e continua l'esecuzione. In questo esempio viene stampato il numero di errori nella console.

def continue_on_failure():
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        acl_change_result = directory_client.set_access_control_recursive(acl=acl)

        print("Summary: {} directories and {} files were updated successfully, {} failures were counted."
          .format(acl_change_result.counters.directories_successful, acl_change_result.counters.files_successful,
                  acl_change_result.counters.failure_count))
        
    except Exception as e:
     print(e)

Per un esempio che elabora gli elenchi di controllo di accesso in modo ricorsivo in batch specificando una dimensione batch, vedere l'esempio Python.

Procedure consigliate

Questa sezione fornisce alcune linee guida sulle procedure consigliate per l'impostazione degli elenchi di controllo di accesso in modo ricorsivo.

Gestione degli errori di runtime

Un errore di runtime può verificarsi per molti motivi (ad esempio, un'interruzione o un problema di connettività client). Se si verifica un errore di runtime, riavviare il processo ACL ricorsivo. Gli elenchi di controllo di accesso possono essere riapplicati agli elementi senza causare un impatto negativo.

Gestione degli errori di autorizzazione (403)

Se si verifica un'eccezione di controllo di accesso durante l'esecuzione di un processo ACL ricorsivo, l'entità di sicurezza di Active Directory potrebbe non disporre di autorizzazioni sufficienti per applicare un elenco di controllo di accesso a uno o più elementi figlio nella gerarchia di directory. Quando si verifica un errore di autorizzazione, il processo viene arrestato e viene fornito un token di continuazione. Risolvere il problema di autorizzazione e quindi usare il token di continuazione per elaborare il set di dati rimanente. Le directory e i file che sono già stati elaborati correttamente non dovranno essere elaborati di nuovo. È anche possibile scegliere di riavviare il processo ACL ricorsivo. Gli elenchi di controllo di accesso possono essere riapplicati agli elementi senza causare un impatto negativo.

Credenziali

È consigliabile effettuare il provisioning di un'entità di sicurezza Di Microsoft Entra assegnata al ruolo proprietario dei dati BLOB Archiviazione nell'ambito dell'account di archiviazione o del contenitore di destinazione.

Prestazioni

Per ridurre la latenza, è consigliabile eseguire il processo ACL ricorsivo in una macchina virtuale di Azure che si trova nella stessa area dell'account di archiviazione.

Limiti ACL

Il numero massimo di ACL che è possibile applicare a una directory o a un file è 32 ACL di accesso e 32 ACL predefiniti. Per altre informazioni, vedere Access control in Azure Data Lake Storage Gen2 (Controllo di accesso in Azure Data Lake Storage Gen2).

Vedi anche