共用方式為


適用于雲端規模分析的 Azure Data Lake 儲存體概觀

Azure Data Lake 是可大規模調整且安全的資料儲存體,適用于高效能分析工作負載。 您可以在單一資源群組內建立儲存體帳戶,以進行雲端規模分析。 建議您在單一資源群組內布建三 個 Azure Data Lake 儲存體 Gen2 帳戶, storage-rg 類似于雲端規模分析架構資料登陸區域概觀 中所述 的資源群組。

資料登陸區域中的每個儲存體帳戶都會將資料儲存在三個階段之一:

  • 未經處理資料
  • 擴充和策劃的資料
  • 開發資料湖

資料應用程式 可以從已擷取自動化資料無從驗證擷取服務的儲存體帳戶取用擴充和策劃的資料。 如果您未實作資料無關引擎,或協助複雜的連接從操作來源擷取資料,您可以建立 來源對齊的資料應用程式 。 從外部資料源擷取資料時,此資料應用程式會遵循與資料無關引擎相同的流程。

Data Lake 儲存體 Gen2 支援精細存取控制 清單 (ACL),以保護檔案和資料夾層級的資料。 存取控制清單可協助您的組織針對資料產品的驗證和授權實作嚴格的安全性措施:

  • 透過待用加密安全地儲存資料。
  • 透過 Microsoft Entra 整合,Microsoft Entra 使用者和安全性群組的存取控制。

Data Lake 規劃

當您規劃資料湖時,請一律考慮結構、治理和安全性的適當考慮。 多個因素會影響每個 Data Lake 的結構和組織:

  • 儲存的資料型別
  • 其資料如何轉換
  • 神秘存取其資料
  • 其一般存取模式是什麼

根據取用者的資料存取需求,將取用者和產生者分組。 規劃整個資料湖的實作和存取控制控管是個好主意。

如果您的資料湖包含一些資料資產和自動化程式,例如擷取、轉換、載入 (ETL) 卸載,您的規劃可能相當容易。 如果您的 Data Lake 包含數百個數據資產,且牽涉到自動化和手動互動,則預期會花較長的時間規劃,因為您需要從資料擁有者進行更多共同作業。

資料沼澤類比喻

資料沼澤是使用者幾乎無法存取的非受控資料湖。 當您未實作資料品質和資料控管量值時,就會發生資料沼澤。 您有時可以使用現有的混合式模型,在資料倉儲中看到資料沼澤。

適當的治理和組織可防止資料沼澤。 當您為數據湖建置堅實的基礎時,它會增加持續 Data Lake 成功與商業價值的機會。

隨著資料湖的大小、複雜度、資料資產數目,以及資料湖的使用者或部門數目成長,擁有健全的資料目錄系統越來越重要。 您的資料目錄系統可確保使用者在處理、取用及控管資料湖時,可以尋找、標記和分類資料。

如需詳細資訊,請參閱 資料控管概觀

儲存體邏輯資料湖中的帳戶

請考慮您的組織是否需要一或多個儲存體帳戶,並考慮建置邏輯資料湖所需的檔案系統。 單一儲存體技術提供多個資料存取方法,並協助您在整個組織中標準化。

Data Lake 儲存體 Gen2 是完全受控的平臺即服務(PaaS)。 在存取或儲存資料之前,多個儲存體帳戶或檔案系統不會產生貨幣成本。 請注意,每個 Azure 資源在布建、安全性和治理期間都有相關聯的系統管理與作業額外負荷,包括備份和災害復原。

注意

每個資料登陸區域都會說明三個數據湖。 不過,視您的需求而定,您可以將原始、擴充和策劃的層合併成一個儲存體帳戶。 您可以建立另一個名為「開發」的儲存體帳戶,讓資料取用者可以帶來其他有用的資料產品。

在合併或三個儲存體帳戶方法之間決定時,請考慮下列因素:

  • 隔離資料環境和可預測性
    • 您可以隔離在原始和開發區域中執行的活動,以避免對策劃區域產生潛在影響,此區域會保存具有重要決策制定所需商業價值的絕佳資料
  • 儲存體帳戶層級的特性和功能
    • 您可以選擇生命週期管理選項或防火牆規則是否必須在資料登陸區域或資料湖層級套用。
    • 建立多個儲存體帳戶,但不是垃圾定址接收器。
    • 避免重複的資料項目目無法在整個組織中缺乏可見度或知識共用。
    • 請確定您有良好的資料控管、專案追蹤工具和資料目錄。
  • 根據設定的許可權,與跨多個湖的資料互動資料處理工具和技術
  • 區域與全球湖泊
    • 湖上的全域散發取用者或進程對地理距離所造成的延遲很敏感。
    • 將資料儲存在本機是很好的作法。
    • 法規限制和資料主權可能需要資料保留在特定區域中。
    • 如需詳細資訊,請參閱 多區域部署

多區域部署

根據資料落地規則或將資料保持在使用者基底附近的需求所決定時,您可能需要在多個 Azure 區域中建立 Azure Data Lake 帳戶。 若要這樣做,請在一個區域中建立資料登陸區域,然後使用 AzCopy、Azure Data Factory 或協力廠商產品來複寫全域資料。 本機資料會存在於區域中,而全域資料則會跨多個區域複寫。

下一步

Data Lake 區域和容器