OneLake,適用於資料的 OneDrive
OneLake 是適用於整個組織的單一、統一、邏輯資料湖。 資料湖會處理來自各種來源的大量資料。 如同 OneDrive,OneLake 會自動隨附於每個 Microsoft Fabric 租用戶,並設計成所有分析資料的單一位置。 OneLake 為客戶提供:
- 整個組織的一個資料湖
- 唯一複本資料,用於多個分析引擎
整個組織的一個資料湖
在使用 OneLake 之前,客戶容易為不同的商務群組建立多個資料湖,而不是在單一資料湖上共同作業,如此會產生管理多個資源的額外負荷。 OneLake 著重於藉由改善共同作業來消除這些挑戰。 每個客戶租用戶都有一個 OneLake。 永遠不會超過 1,如果您有 Fabric,永遠不為零。 每個 Fabric 租用戶都會自動化佈建 OneLake,不需要額外的資源來設定或管理。
根據預設,共同作業具有分散式所有權
租用戶的概念是 SaaS 服務的獨特優點。 了解客戶的組織開始與結束位置,可提供自然治理與合規性界限,由租用戶系統管理員來控制。在預設情況下,任何登入 OneLake 的資料都受到管理。 雖然所有資料都位於租用戶系統管理員所設定的界限內,但重要的是,此系統管理員不會成為阻止組織其他部分參與 OneLake 的中央守門員。
在租用戶中,您可以建立任意數量的工作區。 工作區可使組織的不同部分能夠散發所有權與存取原則。 每個工作區都是綁定特定區域容量的一部分,並單獨計費。
在工作區中,您可以建立資料項目,並透過資料項目存取 OneLake 中的所有資料。 類似於 Office 如何將 Word、Excel 資與 PowerPoint 檔案儲存在 OneDrive、Fabric 會將 Lakehouses、倉儲與其他項目儲存在 OneLake。 項目可以為每個角色提供量身打造的體驗,例如 Lakehouse 中的 Apache Spark 開發人員體驗。
如需如何開始使用 OneLake 的詳細資訊,請參閱使用 OneLake 建立 Lakehouse。
開放每個等級
OneLake 開放每個等級。 OneLake 組建在 Azure Data Lake Storage (ADLS) Gen2 之上,可支援任何類型的檔案、結構化或非結構化檔案。 資料倉儲與 Lakehouse 等所有 Fabric 資料項目會以 Delta Parquet 格式自動將資料儲存在 OneLake。 如果資料工程師使用 Apache Spark 將資料載入 Lakehouse,然後 SQL 開發人員會使用 T-SQL 將資料載入到完全交易資料倉儲中,這兩者都會使用同一個資料湖。 OneLake 會以 Delta Parquet 格式儲存所有表格式資料。
OneLake 支援相同的 ADLS Gen2 API 與 SDK,以便與現有 ADLS Gen2 應用程式相容,包括 Azure Databricks。 您可以在 OneLake 中處理資料,就好像它是整個組織的一個大型 ADLS 儲存體帳戶一樣。 每個工作區都會顯示為該儲存體帳戶內的容器,而不同的資料項目會顯示為這些容器中的資料夾。
如需 API 與端點的詳細資訊,請參閱 OneLake 存取與 APIs。 如需 OneLake 與 Azure 整合的範例,請參閱 Azure Synapse Analytics、 Azure 儲存體總管、 Azure Databricks與 Azure HDInsight 文章。
適用 Windows 的 OneLake 檔案總管
OneLake 為適用於資料的 OneDrive。 就像 OneDrive 一樣,您可以使用適用於 Windows 的 OneLake 檔案總管 ,輕鬆地從 Windows 探索 OneLake 資料。 您可以瀏覽所有工作區與資料項目,輕鬆地上傳、下載或修改檔案,就像您在 Office 中所做的一樣。 OneLake 檔案總管可簡化資料湖的使用,甚至允許非技術商務使用者使用它們。
如需相關資訊,請參閱 OpenLake 檔案總管。
唯一複本資料
OneLake 的目標是讓您在單一份資料中提供最大的價值,而不需要移動或複製資料。 您不再需要將資料複製到另一個引擎,或是分解尋址接收器,以便使用其他來源的資料來分析資料。
捷徑會跨網域連結資料,而不需要移動資料
捷徑的方式可讓您的組織輕鬆地在使用者與應用程式之間共用資料,而不需要移動並複製資訊。 當小組在不同的工作區中獨立工作時,捷徑的方式可讓您將不同商務群組與網域的資料合併成虛擬資料產品,以符合使用者的特定需求。
捷徑的方式是引用儲存在其他檔案位置的資料。 這些檔案位置可以位於相同工作區內或跨不同工作區、OneLake 或 OneLake 在 ADLS、S3 外部或 Dataverse,且即將推出更多目標位置。 不論位置為何,捷徑的方式會讓檔案與資料夾看起來就像儲存在本機一樣。
如需捷徑如何在 iOS 上運作的詳細資訊,請參閱 OneLake 捷徑。
唯一複本資料,多個分析引擎
雖然應用程式可能會區隔儲存體與計算,但資料通常會針對單一引擎進行最佳化,因此難以針對多個應用程式重複使用相同的資料。 使用 Fabric 時,不同的分析引擎(T-SQL、Apache Spark、Analysis Services 等等),會以開放式 Delta Parquet 格式儲存資料,讓您跨多個引擎使用相同的資料。
不再需要資料複製,只需將它與另一個引擎搭配使用。 您始終能夠為您想要完成的工作選擇最好的引擎。 例如,假設您有一個 SQL 工程師團隊建立完全交易資料倉儲。 他們可以使用 T-SQL 引擎與 T-SQL 的所有功能來建立資料表、轉換資料,以及將資料載入資料表。 如果資料科學家想要使用此資料,則不再需要透過特殊的 Spark/SQL 驅動程式。 OneLake 會以 Delta Parquet 格式儲存所有資料。 資料科學家可以直接在資料上使用 Spark 引擎及其開放原始碼程式庫的完整功能。
商務使用者可以在 Analysis Services 引擎中使用新的 Direct Lake 模式,直接在 OneLake 之上建置 Power BI 報表。 Analysis Services 引擎是 Power BI 語意模型的強大功能,而且一律提供兩種存取資料的模式:匯入與直接查詢。 Direct Lake 模式可為使用者提供所有匯入速度,而不需要複製資料,結合最佳的匯入與直接查詢。 如需詳細資訊,請參閱 Direct Lake。
顯示使用 Spark 載入資料的範例圖表、使用 T-SQL 查詢,以及檢視 Power BI 報表中的資料。