使用 Azure Data Factory 內嵌匯出的 Dataverse 資料

將資料以 Azure Synapse Link for Dataverse 從 Microsoft Dataverse 匯出至 Azure Data Lake Storage Gen2 之後,您可以使用 Azure Data Factory 來建立資料流程、轉換資料以及執行分析。

注意

Azure Synapse Link for Dataverse 先前被稱為匯出至 Data Lake。 服務的重新命名已在 2021 年 5 月生效,並將繼續匯出資料至 Azure Data Lake 以及 Azure Synapse Analytics。

本文章將說明如何執行下列工作:

  1. 設定 Data Lake Storage Gen2 儲存體帳戶,並將 Dataverse 資料當作 Data Factory 資料流程中的來源

  2. 使用資料流程在 Data Factory 中轉換 Dataverse 資料。

  3. 設定 Data Lake Storage Gen2 儲存體帳戶,並將 Dataverse 資料當作 Data Factory 資料流程中的接收器

  4. 建立管線以執行資料流程。

先決條件

本節描述使用 Data Factory 來內嵌匯出的 Dataverse 資料所需的先決條件。

  • Azure 角色。 用來登入 Azure 的使用者帳戶必須是參與者負責人角色的成員,或是 Azure 訂閱的系統管理員。 若要查看您在訂閱中擁有的權限,請移至  Azure 入口網站,在右上角選取您的使用者名稱、選取 ...,然後選取 我的權限。 如果您有權存取多個訂閱,請選取適當的訂閱。 若要在 Azure 入口網站中建立和管理用於 Data Factory 的下層資源—包括資料集、連結的服務、管線、觸發器及整合執行階段—您必須屬於資源群組層級或以上的 Data Factory 參與者角色。

  • Azure Synapse Link for Dataverse。 本指南假設您已經使用 Azure Synapse Link for Dataverse匯出 Dataverse 資料。 在此範例中,客戶資料表資料會匯出至 Data Lake。

  • Azure Data Factory。 本指南假設您已在與儲存體帳戶 (包含已匯出 Dataverse 資料) 相同的訂閱和資源群組下,建立資料處理站。

將 Data Lake Storage Gen2 儲存體帳戶設定為來源

  1. 開啟 Azure Data Factory,然後選取與儲存體帳戶 (包含已匯出 Dataverse 資料) 相同的訂閱和資源群組上的資料處理站。 然後從首頁選取建立資料流程

  2. 開啟資料流程偵錯模式,然後選取您偏好的生存時間。 這可能需要 10 分鐘的時間,但是您可以繼續下列步驟。

    資料流程偵錯模式。

  3. 選取新增來源

    新增資源。

  4. 來源設定下,執行下列動作:

    • 輸出串流名稱:輸入想要的名稱。
    • 資源類型:選取內嵌
    • 內嵌資料集類型:選取一般資料模型
    • 連結的服務:從下拉式功能表中選取儲存體帳戶,然後提供您的訂閱詳細資料並保留所有預設設定,以連結新服務。
    • 取樣:如果您想要使用所有資料,請選取停用
  5. 來源選項底下,執行下列動作:

    • 中繼資料格式:選取 Model.json

    • 根位置:在第一個方塊 (容器) 中輸入容器名稱,或瀏覽容器名稱,然後選取確定

    • 實體:輸入資料表名稱或瀏覽資料表。

      來源選項。

  6. 檢查投影索引標籤,確保您的結構描述已順利匯入。 如果您看不到任何資料行,請選取結構描述選項,然後勾選推斷漂移資料行類型選項。 設定格式設定選項以對應您的資料集,然後選取套用

  7. 您可以在資料預覽索引標籤中查看資料,以確保來源建立是完整且準確的。

轉換您的 Dataverse 資料

在 Azure Data Lake Storage Gen2 帳戶中將匯出的 Dataverse 資料設定為 Data Factory 資料流程中的來源之後,可以使用多種方式來轉換資料。 其他資訊:Azure Data Factory

請遵循這些指示,為每個資料列依客戶資料表中的營收欄位建立順位。

  1. 在上一個轉換的右下角選取 +,然後搜尋並選取排名

  2. 排名設定索引標籤上,執行以下作業:

    • 輸出串流名稱:輸入您想要的名稱,例如排名 1

    • 傳入串流:選取想要的來源名稱。 在此情況下,來源名稱來自上一步。

    • 選項:別勾選選項。

    • 排名資料行:輸入產生的排名資料行名稱。

    • 排序條件:選取營收資料行並依遞減順序排序。

      設定排名設定索引標籤

  3. 您可以在資料預覽索引標籤中查看資料,您將在最右邊的位置找到新的 revenueRank 資料行。

將 Data Lake Storage Gen2 儲存體帳戶設為接收器

最後,您必須為資料流程設定接收器。 請按照以下說明,將轉換後的資料作為分隔符號文字檔案置於 Data Lake 中。

  1. 在上一個轉換的右下角選取 +,然後搜尋並選取接收器

  2. 接收索引標籤上,執行下列動作:

    • 輸出串流名稱:輸入想要的名稱,例如 Sink1

    • 傳入串流:選取想要的來源名稱。 在此情況下,來源名稱來自上一步。

    • 接收器類型:選取分隔符號文字

    • 連結的服務:選取包含您使用 Azure Synapse Link for Dataverse 服務匯出資料的 Data Lake Storage Gen2 儲存容器。

      設定接收索引標籤

  3. 設定索引標籤中,執行下列動作:

    • 資料夾路徑:在第一個方塊 (檔案系統) 中輸入容器名稱,或瀏覽容器名稱,然後選取確定

    • 檔案名稱選項:選取輸出至單一檔案

    • 輸出至單一檔案:輸入檔案名稱,例如 ADFOutput

    • 保留其他所有預設設定。

      設定接收器設定索引標籤

  4. 最佳化索引標籤中,將分割選項 設定為分割

  5. 您可以在資料預覽索引標籤中查看資料。

執行資料流程

  1. 在左窗格中的 Factory 資源底下,選取 +,然後選取管線

    建立新管線。

  2. 活動底下,選取移動和轉換,然後將資料流程拖曳至工作區。

  3. 選取使用現有的資料流程,然後選取您在先前步驟中所建立的資料流程。

  4. 從命令列選取偵錯

  5. 讓資料流程執行,直到底端檢視表顯示已完成。 這可能需要幾分鐘時間。

  6. 前往最後一個目標儲存體容器,並尋找轉換後的資料表資料檔案。

請參閱

使用 Azure Data Lake 設定 Azure Synapse Link for Dataverse

使用 Power BI 分析 Azure Data Lake Storage Gen2 中的 Dataverse 資料

注意

是否能請您告知您偏好的慣用文件語言? 請填寫問卷。 (請注意,本問卷為英文版)

完成問卷大約需要七分鐘。 本問卷將不會收集個人資料 (隱私權聲明)。