Share via


連接至 Azure Data Lake Storage 中的 Common Data Model 資料表

注意

Azure Active Directory 現在改為 Microsoft Entra ID。 了解詳細資訊

使用具有 Common Data Model 資料表的 Azure Data Lake Storage 帳戶,將資料擷取至 Dynamics 365 Customer Insights - Data 中。 資料擷取可以為全部或累加。

先決條件

  • Azure Data Lake Storage 帳戶必須已啟用階層命名空間。 資料必須以階層式資料夾格式儲存,且格式中定義了根資料夾並包含每個資料表的子資料夾。 子資料夾可以擁有完整資料或累加式資料資料夾。

  • 若要使用 Microsoft Entra 服務主體進行驗證,請確定這已在您的租用戶中設定完成。 如需詳細資訊,請參閱使用 Microsoft Entra 服務主體連接至 Azure Data Lake Storage 帳戶

  • 您想要連接並內嵌資料的 Azure Data Lake Storage,必須與 Dynamics 365 Customer Insights 環境位於相同的 Azure 區域,且訂閱必須要在相同的租用戶下。 不支援從不同 Azure 區域的 Data Lake 連接到 Common Data Model 資料夾。 若要了解環境的 Azure 區域,請移至 Customer Insights - Data 中的設定>系統>關於

  • 儲存在線上服務中的資料可能會儲存在與處理或儲存資料所在位置不同的位置。 匯入或連接至儲存在線上服務的資料,即表示您同意可以將資料轉移。 請在 Microsoft 信任中心了解更多

  • Customer Insights - Data 服務主體必須是下列其中一個角色,才能存取儲存體帳戶。 如需詳細資訊,請參閱將權限授與服務主體以存取儲存體帳戶

    • 儲存體 Blob 資料讀者
    • 儲存體 Blob 負責人
    • 儲存體 Blob 資料參與者
  • 使用 Azure 訂閱選項連接至 Azure 儲存體時,設定資料來源連接的使用者至少需要儲存體帳戶的儲存體 Blob 資料參與者權限。

  • 使用 Azure 資源選項連接至 Azure 儲存體時,設定資料來源連接的使用者在儲存體帳戶上至少需要 Microsoft.Storage/storageAccounts/read 動作的權限。 包含此動作的 Azure 內建角色讀者 角色。 若要將存取範圍僅限必要的動作,請建立 Azure 自訂角色,而該角色僅包含此動作。

  • 為獲得最佳效能,磁碟分割的大小應等於或小於 1 GB,而且資料夾中的磁碟分割檔案數不得超過 1000。

  • Data Lake Storage 中的資料應遵循 Common Data Model 標準來儲存您的資料,並使用 Common Data Model 資訊清單來表示資料檔案的結構描述 (*.csv 或 *.parquet)。 此資訊清單必須提供資料表的詳細資料 (例如資料表欄和資料類型) 以及資料檔案位置和檔案類型。 如需更多資訊,請前往 Common Data Model 資訊清單。 如果此資訊清單不存在,則具備 Storage Blob 資料擁有者或儲存 Blob 資料參與者存取權限的管理使用者,可以在內嵌資料時定義結構描述。

    注意

    如果 .parquet 檔案中有任何欄位的資料類型為 Int96,則資料可能不會顯示在資料表頁面上。 建議使用標準資料類型,例如 Unix 時間戳記格式 (將時間表示為自 1970 年 1 月 1 日午夜 UTC 以來的秒數)。

限制

  • Customer Insights - Data 不支援精確度大於 16 的小數類型資料行。

連線至 Azure Data Lake Storage

  1. 移至資料>資料來源

  2. 選取新增資料來源

  3. 選取 Azure Data Lake Common Data Model 資料表

    用於輸入 Azure Data Lake 與 Common Data Model 資料表之連接詳細資料的對話方塊。

  4. 輸入資料來源名稱說明 (選填)。 該名稱在下游流程中參考,並且在建立資料來源後無法變更。

  5. 您可以選擇下列其中一種選項,以連接使用的儲存體。 如需詳細資訊,請參閱使用 Microsoft Entra 服務主體連接至 Azure Data Lake Storage 帳戶

    • Azure 資源:輸入資源識別碼。(private-link.md)。
    • Azure 訂閱:選取訂閱,然後選取資源群組儲存體帳戶

    注意

    您需要容器的下列其中一個角色,才能建立資料來源:

    • 「儲存體 Blob 資料讀者」足以讀取儲存體帳戶,並將資料擷取至 Customer Insights - Data。
    • 如果您想要直接在 Customer Insights - Data 中編輯資訊清單檔案,則需要儲存體 Blob 資料參與者或擁有者。

    在儲存體帳戶上設定該角色,就能在其所有容器中提供相同的角色。

  6. 或者,如果您想透過 Azure Private Link 從儲存體帳戶中內嵌資料,請選取啟用 Private Link。 如需詳細資訊,請參閱私人連結

  7. 選擇包含資料和結構描述 (model.json or manifest.json 檔案) 的容器名稱,以從其中匯入資料,然後選取下一步

    Note

    所有關聯到環境中另一個資料來源的 model.json 或 manifest.json 檔案將不會顯示在清單中。 然而同一個 model.json 或 manifest.json 檔案可在多個環境中用在資料來源。

  8. 若要建立新的結構描述,請移至建立新的結構描述檔案

  9. 若要使用現有的結構描述,請前往 model.json 或 manifest.cdm.json 檔案的資料夾。 您可以在目錄中搜尋檔案。

  10. 請選取 json 檔案,然後選取下一步。 顯示可用資料表的清單。

    可選取資料表清單的對話方塊

  11. 選取要包含的資料表。

    顯示對主索引鍵為必要項目的對話方塊

    提示

    若要在 JSON 編輯介面中編輯資料表,請選取資料表,然後選取編輯結構描述檔案。 進行變更並選取儲存

  12. 如果選定的資料表需要累加式擷取,則累加式重新整理下顯示必要。 若要對每一個資料表,請參閱為 Azure Data Lake 資料來源設定累加式重新整理

  13. 對於尚未定義主索引鍵的選定資料表,則會在主索引鍵下顯示必要。 對每一個資料表:

    1. 選取必要編輯資料表面板隨即顯示。
    2. 選擇主索引鍵。 主索引鍵是資料表的唯一屬性。 若要讓屬性成為有效的主索引鍵,其中不能包含重複值、遺漏值或 Null 值。 字串、整數及 GUID 資料類型屬性均支援主索引鍵。
    3. 或者,變更分區模式。
    4. 選取關閉以儲存並關閉面板。
  14. 為每個已包含的資料表選取的數量。 管理屬性頁面隨即顯示。

    可選取資料分析的對話方塊。

    1. 建立新的欄、編輯或刪除現有的欄。 您可以變更名稱、資料格式或新增語義類型。
    2. 若要啟用分析和其他功能,請為整個資料表或特定欄選取資料分析。 根據預設,沒有資料表會啟用於資料剖析。
    3. 選取完成
  15. 選取儲存資料來源頁面會打開,顯示處於重新整理狀態中的新資料來源。

    小費

    工作和程序的狀態。 大部分程序都是依靠其他上游程序而定,例如:資料來源和資料分析重新整理

    選取狀態打開進度詳細資料窗格並查看工作的進度。 若要取消作業,請在窗格下方選取取消作業

    在每個工作下方,您可以選取查看詳細資料取得更多的進度資訊,例如:處理時間、上次處理日期以及可取得的任何與工作或程序相關的錯誤和警告。 選取面板下方的查看系統狀態,以查看系統中的其他程序。

載入資料可能需要花費一些時間。 成功重新整理之後,即可從資料表頁面查看擷取的資料。

建立新的結構描述檔案

  1. 選取建立結構描述檔案

  2. 輸入檔案名稱,然後選取儲存

  3. 選取新增資料表新增資料表面板隨即顯示。

  4. 輸入資料表名稱,然後選擇資料檔案位置

    • 多個 .csv 或 .parquet 檔案:瀏覽至根資料夾,選取模式類型,然後輸入運算式。
    • 單一 .csv 或 .parquet 檔案:瀏覽至 .csv 或 .parquet 檔案位置,並選取該檔案。

    可建立新資料表的對話方塊,並醒目提示資料檔案位置。

  5. 選取儲存

    可定義或自動生成屬性的對話方塊。

  6. 選取定義屬性以手動新增屬性,或選取自動生成屬性。 若要定義屬性,請輸入名稱,並選取資料格式及語義類型 (選填)。 對於自動產生屬性:

    1. 自動生成屬性後,請選取檢閱屬性管理屬性頁面隨即顯示。

    2. 請確定每個屬性的資料格式都正確。

    3. 若要啟用分析和其他功能,請選取整個資料表或特定欄的資料分析。 根據預設,沒有資料表會啟用於資料剖析。

      可選取資料分析的對話方塊。

    4. 選取完成選取資料表頁面隨即顯示。

  7. 繼續新增資料表和欄 (如果適用)。

  8. 新增資料表之後,選取包括在資料來源擷取中納入資料表。

    顯示對主索引鍵為必要項目的對話方塊

  9. 如果選定的資料表需要累加式擷取,則累加式重新整理下顯示必要。 若要對每一個資料表,請參閱為 Azure Data Lake 資料來源設定累加式重新整理

  10. 對於尚未定義主索引鍵的選定資料表,則會在主索引鍵下顯示必要。 對每一個資料表:

    1. 選取必要編輯資料表面板隨即顯示。
    2. 選擇主索引鍵。 主索引鍵是資料表的唯一屬性。 若要讓屬性成為有效的主索引鍵,其中不能包含重複值、遺漏值或 Null 值。 字串、整數及 GUID 資料類型屬性均支援主索引鍵。
    3. 或者,變更分區模式。
    4. 選取關閉以儲存並關閉面板。
  11. 選取儲存資料來源頁面會打開,顯示處於重新整理狀態中的新資料來源。

    小費

    工作和程序的狀態。 大部分程序都是依靠其他上游程序而定,例如:資料來源和資料分析重新整理

    選取狀態打開進度詳細資料窗格並查看工作的進度。 若要取消作業,請在窗格下方選取取消作業

    在每個工作下方,您可以選取查看詳細資料取得更多的進度資訊,例如:處理時間、上次處理日期以及可取得的任何與工作或程序相關的錯誤和警告。 選取面板下方的查看系統狀態,以查看系統中的其他程序。

載入資料可能需要花費一些時間。 成功重新整理之後,即可從資料>資料表頁面查看擷取的資料。

編輯 Azure Data Lake Storage 資料來源

您可以更新連接至使用的儲存體帳戶選項。 如需詳細資訊,請參閱使用 Microsoft Entra 服務主體連接至 Azure Data Lake Storage 帳戶。 若要從儲存體帳戶連接至不同的容器,或變更帳戶名稱,請建立新的資料來源連接

  1. 移至資料>資料來源。 在您想要更新的資料來源旁邊,選取編輯

  2. 變更下列資訊:

    • 描述

    • 連接您使用的儲存空間並連接資訊。 更新連接時,您無法變更 容器 資訊。

      Note

      必須把下列的其中一種角色指派給儲存體帳戶或容器:

      • 儲存體 Blob 資料讀者
      • 儲存體 Blob 負責人
      • 儲存體 Blob 資料參與者
    • 將 Azure 的受控識別與 Azure Data Lake Storage 搭配使用???

    • 啟用 Private Link如果您想透過 Azure Private Link 從儲存體帳戶中內嵌資料。 如需詳細資訊,請參閱私人連結

  3. 選取下一步

  4. 變更下列:

    • 瀏覽至不同的 model.json 或 manifest.json 檔案位置,該檔案包含一組來自該容器的不同資料表集。

    • 若要新增其他資料表進行內嵌,請選取新增資料表

    • 若要移除任何已選定的資料表 (如果沒有任何相依性),請選取該資料表,然後刪除

      重要

      如果現有的 model.json 或 manifest.json file檔案對資料表集有相依性,您將會看到錯誤訊息,且無法選取不同的 model.json 或 manifest.json 檔案。 在變更 model.json 或 manifest.json 檔案之前移除這些相依性,或以您要使用的 model.json 或 manifest.json 檔案建立新的資料來源來避免移除相依性。

    • 若要變更資料檔案位置或主索引鍵,請選取編輯

    • 若要變更累加式擷取資料,請參閱為 Azure Data Lake 資料來源設定累加式重新整理

    • 僅變更資料表名稱,使其符合 .json 檔案中的資料表名稱。

      注意

      擷取後,資料表名稱必須始終與 model.json 或 manifest.json 檔案中的資料表名稱保持一致。 每次系統重新整理時,Customer Insights - Data 都會使用 model.json 或 manifest.json 來驗證所有資料表名稱。 如果資料表名稱變更,就會因為 Customer Insights - Data 無法在 .json 檔案中找到新的資料表名稱而發生錯誤。 如果擷取的資料表名稱意外變更,請編輯資料表名稱,使之符合 .json 檔案中的名稱。

  5. 選取來新增或變更欄,或啟用資料分析。 然後,選取完成

  6. 選取儲存以套用變更,並返回至資料來源頁面。

    小費

    工作和程序的狀態。 大部分程序都是依靠其他上游程序而定,例如:資料來源和資料分析重新整理

    選取狀態打開進度詳細資料窗格並查看工作的進度。 若要取消作業,請在窗格下方選取取消作業

    在每個工作下方,您可以選取查看詳細資料取得更多的進度資訊,例如:處理時間、上次處理日期以及可取得的任何與工作或程序相關的錯誤和警告。 選取面板下方的查看系統狀態,以查看系統中的其他程序。