分享方式:


使用 Python 管理 Azure Data Lake Storage 中的 ACL

此文章說明如何使用 Python 來取得、設定及更新目錄和檔案的存取控制清單。

在上層目錄底下新建的下層項目已可使用 ACL 繼承。 但是您也可以在父目錄的現有子項目上以遞迴方式新增、更新和移除 ACL,而不需要針對每個子項目個別進行這些變更。

套件 (Python 套件索引) | 範例 | 遞迴 ACL 範例 | API 參考 | Gen1 至 Gen2 對應 | 提供意見反應

必要條件

  • Azure 訂用帳戶 - 建立免費帳戶
  • 已啟用階層命名空間 (HNS) 的 Azure 儲存體帳戶。 遵循下列指示以建立帳戶。
  • Python 3.8+
  • Azure CLI 2.6.0 版或更高版本。
  • 下列其中一個安全性權限:
    • 已佈建的 Microsoft Entra ID 安全性主體,該主體已獲派儲存體 Blob 資料擁有者角色,且範圍設定為目標容器、儲存體帳戶、上層資源群組或訂用帳戶。
    • 您計劃套用 ACL 設定的目標容器或目錄的擁有使用者。 若要以遞迴方式設定 ACL,這包括目標容器或目錄中的所有子項目。
    • 儲存體帳戶金鑰。

設定您的專案

本節會引導您準備專案以搭配適用於 Python 的 Azure Data Lake Storage 用戶端程式庫使用。

從您的專案目錄中,使用 pip install 命令安裝 Azure Data Lake Storage 和 Azure 身分識別用戶端程式庫的套件。 需要 Azure 身分識別套件才能對 Azure 服務進行無密碼連線。

pip install azure-storage-file-datalake azure-identity

然後開啟程式碼檔案,並新增必要的匯入陳述式。 在此範例中,我們會將下列內容新增至 .py 檔案:

from azure.identity import DefaultAzureCredential
from azure.storage.filedatalake import DataLakeServiceClient

連線到帳戶

若要使用此文章中的程式碼範例,您必須建立代表儲存體帳戶的 DataLakeServiceClient 執行個體。 您可以使用 Microsoft Entra ID 認證或帳戶金鑰來授權用戶端物件。

您可以使用適用於 Python 的 Azure 身分識別用戶端程式庫,以 Microsoft Entra ID 驗證您的應用程式。

注意

如果您使用 Microsoft Entra ID 來授權存取,則需確定已將儲存體 Blob 資料擁有者角色指派給您的安全性主體。 若要深入了解如何套用 ACL 權限以及變更權限的影響,請參閱 Azure Data Lake Storage 中的存取控制模型 (部分機器翻譯)。

首先,將下列其中一個 Azure 角色型存取控制 (Azure RBAC) 角色指派給您的安全性主體:

角色 ACL 設定功能
儲存體 Blob 資料擁有者 帳戶中的所有目錄和檔案。
儲存體 Blob 資料參與者 只有安全性主體所擁有的目錄和檔案。

接著,建立 DataLakeServiceClient 執行個體,並傳入 DefaultAzureCredential 類別的新執行個體。

def get_service_client_token_credential(self, account_name) -> DataLakeServiceClient:
    account_url = f"https://{account_name}.dfs.core.windows.net"
    token_credential = DefaultAzureCredential()

    service_client = DataLakeServiceClient(account_url, credential=token_credential)

    return service_client

若要深入瞭解如何使用 DefaultAzureCredential 來授權存取資料,請參閱概觀:使用 Azure SDK 向 Azure 驗證 Python 應用程式

設定 ACL

設定 ACL 時,您會取代整個 ACL,包括其所有項目。 如果您想要變更安全性主體的權限層級,或將新的安全性主體新增至 ACL,而不會影響其他現有的項目,您應該改為更新 ACL。 若要更新 ACL 而非取代,請參閱本文的更新 ACL 一節。

本節說明如何:

  • 設定目錄的 ACL
  • 設定檔案的 ACL

設定目錄的 ACL

藉由呼叫 DataLakeDirectoryClient.get_access_control 方法來取得目錄的存取控制 (ACL) 清單,並藉由呼叫 DataLakeDirectoryClient.set_access_control 方法來設定 ACL。

此範例會針對名為 my-directory 的目錄取得並設定 ACL。 字串 rwxr-xrw- 會為擁有使用者提供讀取、寫入及執行權限,僅為擁有群組提供讀取和執行權限,並為所有其他人員提供讀取和寫入權限。

def manage_directory_permissions():
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-file-system")

        directory_client = file_system_client.get_directory_client("my-directory")
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])
        
        new_dir_permissions = "rwxr-xrw-"
        
        directory_client.set_access_control(permissions=new_dir_permissions)
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])
    
    except Exception as e:
     print(e)

您也可以取得和設定容器根目錄的 ACL。 若要取得根目錄,請呼叫 FileSystemClient._get_root_directory_client 方法。

設定檔案的 ACL

藉由呼叫 DataLakeFileClient.get_access_control 方法來取得檔案的存取控制 (ACL) 清單,並藉由呼叫 DataLakeFileClient.set_access_control 方法來設定 ACL。

此範例會針對名為 my-file.txt 的檔案取得並設定 ACL。 字串 rwxr-xrw- 會為擁有使用者提供讀取、寫入及執行權限,僅為擁有群組提供讀取和執行權限,並為所有其他人員提供讀取和寫入權限。

def manage_file_permissions():
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-file-system")

        directory_client = file_system_client.get_directory_client("my-directory")
        
        file_client = directory_client.get_file_client("uploaded-file.txt")

        acl_props = file_client.get_access_control()
        
        print(acl_props['permissions'])
        
        new_file_permissions = "rwxr-xrw-"
        
        file_client.set_access_control(permissions=new_file_permissions)
        
        acl_props = file_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

以遞迴方式設定 ACL

設定 ACL 時,將會取代整個 ACL,包括其所有項目。 如果您想要變更安全性主體的權限層級,或將新的安全性主體新增至 ACL,而不會影響其他現有的項目,您應該改為更新 ACL。 若要更新 ACL 而非取代,請參閱本文的以遞迴方式更新 ACL一節。

藉由呼叫 DataLakeDirectoryClient.set_access_control_recursive 方法,以遞迴方式設定 ACL。

如果您想要設定預設 ACL 項目,請將字串 default: 新增至每個 ACL 項目字串的開頭。

此範例會設定名為 my-parent-directory 目錄的 ACL。

這個方法會接受名為 is_default_scope 的布林參數,指定是否要設定預設 ACL。 如果該參數為 True,ACL 項目的清單前面會加上字串 default:。 此範例中的項目會授與下列權限:擁有使用者可獲得讀取、寫入和執行權限,擁有群組可獲得讀取和執行權限,而其他所有人則可獲得讀取權限。 此範例中的最後一個 ACL 項目會向特定使用者提供有物件識別碼 xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx 的讀取權限。

def set_permission_recursively(is_default_scope):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")

        acl = 'user::rwx,group::r-x,other::r--,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'   

        if is_default_scope:
           acl = 'default:user::rwx,default:group::r-x,default:other::r--,default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        directory_client.set_access_control_recursive(acl=acl)
        
        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

若要查看透過指定批次大小以遞迴方式批次處理 ACL 的範例,請參閱 Python 範例

以遞迴方式更新 ACL

當您更新 ACL 時,您會修改 ACL 而不是取代 ACL。 例如,您可以將新的安全性主體新增至 ACL,而不會影響 ACL 中列出的其他安全性主體。 若要取代 ACL 而不是更新,請參閱這篇文章的設定 ACL 一節。

若要以遞迴方式更新 ACL,請使用您想要更新的 ACL 項目來建立新的 ACL 物件,然後在更新 ACL 作業中使用該物件。 請勿取得現有的 ACL,只需提供要更新的 ACL 項目。 藉由呼叫 DataLakeDirectoryClient.update_access_control_recursive 方法,以遞迴方式更新 ACL。 如果您想要更新預設 ACL 項目,請將字串 default: 新增至每個 ACL 項目字串的開頭。

此範例會使用寫入權限更新 ACL 項目。

此範例會設定名為 my-parent-directory 目錄的 ACL。 這個方法會接受名為 is_default_scope 的布林參數,指定是否要更新預設 ACL。 如果該參數為 True,則更新的 ACL 項目前面會加上字串 default:

def update_permission_recursively(is_default_scope):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'   

        if is_default_scope:
           acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:rwx'

        directory_client.update_access_control_recursive(acl=acl)

        acl_props = directory_client.get_access_control()
        
        print(acl_props['permissions'])

    except Exception as e:
     print(e)

若要查看透過指定批次大小以遞迴方式批次處理 ACL 的範例,請參閱 Python 範例

以遞迴方式移除 ACL 項目

您可以移除一或多個 ACL 項目。 若要以遞迴方式移除 ACL 項目,請為要移除的 ACL 項目建立新 ACL 物件,然後在移除 ACL 作業中使用該物件。 請勿取得現有的 ACL,只需提供要移除的 ACL 項目。

藉由呼叫 DataLakeDirectoryClient.remove_access_control_recursive 方法來移除 ACL 項目。 如果您想要移除預設 ACL 項目,請將字串 default: 新增至 ACL 項目字串的開頭。

此範例會從名為 my-parent-directory 的目錄 ACL,移除 ACL 項目。 這個方法會接受名為 is_default_scope 的布林參數,指定是否要從預設 ACL 移除項目。 如果該參數為 True,則更新的 ACL 項目前面會加上字串 default:

def remove_permission_recursively(is_default_scope):

    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")

        acl = 'user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'

        if is_default_scope:
           acl = 'default:user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'

        directory_client.remove_access_control_recursive(acl=acl)

    except Exception as e:
     print(e)

若要查看透過指定批次大小以遞迴方式批次處理 ACL 的範例,請參閱 Python 範例

從失敗中復原

您可能會遇到執行階段或權限錯誤。 如果是執行階段錯誤,請從頭開始重新啟動程序。 如果安全性主體沒有足夠的權限可修改要修改的目錄階層中目錄或檔案的 ACL,則可能會發生權限錯誤。 解決權限問題,然後選擇使用接續權杖從失敗點繼續處理程序,或從頭開始重新啟動程序。 如果您想要從頭開始重新啟動,就不需要使用接續權杖。 您可以重新套用 ACL 項目,而不會產生負面影響。

此範例會在發生失敗時傳回接續權杖。 應用程式可以在解決錯誤之後,再次呼叫這個範例方法,然後傳入接續權杖。 如果是第一次呼叫此範例方法,應用程式可以傳入 None 的值作為接續權杖參數。

def resume_set_acl_recursive(continuation_token):
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        acl_change_result = directory_client.set_access_control_recursive(acl=acl, continuation=continuation_token)

        continuation_token = acl_change_result.continuation

        return continuation_token
        
    except Exception as e:
     print(e) 
     return continuation_token

若要查看透過指定批次大小以遞迴方式批次處理 ACL 的範例,請參閱 Python 範例

如果您想要讓程序完成而不受權限錯誤干擾,您可以指定。

若要確保程序繼續完成不中斷,請不要將接續權杖傳遞至 DataLakeDirectoryClient.set_access_control_recursive 方法。

此範例會以遞迴方式設定 ACL 項目。 如果此程式碼遇到權限錯誤,則會記錄該失敗並繼續執行。 此範例會將失敗次數列印到主控台。

def continue_on_failure():
    
    try:
        file_system_client = service_client.get_file_system_client(file_system="my-container")

        directory_client = file_system_client.get_directory_client("my-parent-directory")
              
        acl = 'user::rwx,group::rwx,other::rwx,user:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:r--'

        acl_change_result = directory_client.set_access_control_recursive(acl=acl)

        print("Summary: {} directories and {} files were updated successfully, {} failures were counted."
          .format(acl_change_result.counters.directories_successful, acl_change_result.counters.files_successful,
                  acl_change_result.counters.failure_count))
        
    except Exception as e:
     print(e)

若要查看透過指定批次大小以遞迴方式批次處理 ACL 的範例,請參閱 Python 範例

最佳作法

本節提供您以遞迴方式設定 ACL 的一些最佳做法指導方針。

處理執行階段錯誤

有許多原因可能會發生執行階段錯誤 (例如:中斷或用戶端連線問題)。 如果您遇到執行階段錯誤,請重新啟動遞迴 ACL 程序。 ACL 可以重新套用至項目,而不會造成負面影響。

處理權限錯誤 (403)

如果您在執行遞迴 ACL 程序時遇到存取控制例外狀況,則您的 AD 安全性主體可能沒有足夠權限可將 ACL 套用至目錄階層中的一或多個子項目。 發生權限錯誤時,程序會停止,並提供接續權杖。 修正權限問題,然後使用接續權杖來處理剩餘的資料集。 已成功處理的目錄和檔案不需要重新處理。 您也可以選擇重新啟動遞迴 ACL 程序。 ACL 可以重新套用至項目,而不會造成負面影響。

認證

建議您在目標儲存體帳戶或容器的範圍中,佈建已獲指派儲存體 Blob 資料擁有者角色的 Microsoft Entra 安全性主體。

效能

若要減少延遲,建議您在位於與儲存體帳戶相同區域中的 Azure 虛擬機器 (VM) 中執行遞迴 ACL 程序。

ACL 限制

您可以套用至目錄或檔案的 ACL 數目上限是 32 個存取 ACL 和 32 個預設 ACL。 如需詳細資訊,請參閱 Azure Data Lake Storage Gen2 中的存取控制

另請參閱