共用方式為


Power Query 與 Data Lake Storage 資料來源的累加式重新整理

對位於 Power Query (預覽版) 或 Azure Data Lake Storage 之資料來源的累加式重新整理可提供下列優點:

  • 更快速的重新整理 -只有已變更的資料才會重新整理。 例如,您可能只會重新整理過去五天的歷史資料集。
  • 提高的可靠性 - 進行較小量的重新整理時,您不需要長時間維持與動態來源系統的連線,並可減少發生連線問題的風險。
  • 減少資源消耗 - 僅重新整理總體資料的一部分,才能更有效率地使用運算資源,並減少環境的磁碟使用量。

對以 Power Query (預覽版) 為基礎的資料來源設定累加式重新整理

[本文章是發行前版本文件,隨時可能變更。]

設定 Customer Insights - Data 中的任何 Power Query 資料來源以進行累加式重新整理。 資料來源必須有唯一識別記錄的主索引鍵資料行以及指示資料上次更新時間的日期時間資料行。

重要

  • 這是預覽功能。
  • 預覽功能不供生產時使用,而且可能功能受限。 這些功能是在正式發行前先行推出,讓客戶能夠搶先體驗並提供意見反應。
  1. 根據 Power Query 建立新的資料來源

  2. 選取支援累加式重新整理的資料來源,例如 Azure SQL 資料庫

  3. 選取要內嵌的資料表。

  4. 完成轉換步驟,然後選取下一步

  5. 設定增量重新整理對話方塊中,選取設定 以開啟增量重新整理設定。 如果您選取略過,則資料來源會重新整理整個資料集。

    提示

    您也可以編輯現有的資料來源,稍後再套用增量更新。

  6. 累加式重新整理設定中,為所有在建立資料來源時選取的資料表設定累加式重新整理。

    設定累加式重新整理。

  7. 選取資料表,並提供下列詳細資料:

    • 定義主索引鍵:選取資料表的主索引鍵。
    • 定義「上次更新」欄位:此欄位只會顯示日期或時間類型的屬性。 選取表示記錄上次更新時間的屬性。 此屬性可識別落在增量重新整理時間範圍的記錄。
    • 檢查更新間隔:指定您想要的增量重新整理時間範圍的時間長度。
  8. 選取儲存以完成建立資料來源的作業。 初始資料重新整理是完整重新整理。 此後,增量資料重新整理會依照上一個步驟中所設定的方式進行。

設定 Azure Data Lake Storage 資料來源的累加式重新整理

Microsoft 建議使用 Delta Lake 格式來取得處理大型資料集的最佳效能和結果。 Customer Insights - Data 提供已對 Delta Lake 格式資料進行最佳化的連接器。 內部程序 (例如統整) 經過最佳化,僅對已變更的資料進行累加式處理,從而縮短處理時間。

若要對 Data Lake 資料表使用實體的累加式擷取和重新整理,請在新增或編輯 Azure Data Lake 資料來源時,設定該資料表。 資料表資料的資料夾必須包含下列資料夾:

  • FullData:資料夾中包含初始記錄的資料檔案
  • IncrementalData:資料夾中有累加式更新且日期/時間階層資料夾格式為 yyyy/mm/dd/hh。 年、月、日和小時資料夾必須分別為四位數字和兩位數字。 hh表示更新的 UTC 時間,且包含 UpsertsDeletes 資料夾。 Upserts 包含現有記錄或新記錄的更新的資料檔案。 Deletes 包含要移除的記錄的資料檔案。

處理增量資料的順序

在指定的 UTC 時間結束之後,系統會處理 IncrementalData 資料夾中的檔案。 例如,如果系統在 2023 年 1 月 21 日上午 8:15 開始處理累加式重新整理,則會處理資料夾 2023/01/21/07 中的所有檔案 (表示從上午 7 點到上午 8 點儲存的資料檔案)。 下次執行之前,都不會處理資料夾 2023/01/21/08 (表示仍在產生檔案所在目前時間的小時) 中的任何檔案。

如果主索引鍵有兩筆記錄 (upsert 和 delete),則 Customer Insights - Data 會使用最新修改日期的記錄。 例如,如果 delete 時間戳記為 2023-01-21T08:00:00,而 upsert 時間戳記為 2023-01-21T08:30:00,則使用 upsert 記錄。 如果在 upsert 後發生刪除,則系統假設該記錄已刪除。

設定 Azure Data Lake 資料來源的累加式重新整理

  1. 在新增或編輯資料來源時,請瀏覽至該資料表的屬性窗格。

  2. 檢閱屬性。 請確定已建立或上次更新的日期屬性是設定為 dateTime資料格式Calendar.Date語義類型。 如有需要,請編輯屬性,然後選取完成

  3. 選取資料表窗格,編輯資料表。 累加式內嵌核取方塊已選取。

    設定資料來源中的資料表以進行增量重新整理。

    1. 完整資料、累加式資料更新插入和累加式資料刪除的 .csv 或 .parquet 檔案位於同一個根資料夾,請瀏覽至該根資料夾。
    2. 輸入完整資料和兩個累加式檔案的副檔名 (.csv 或 .parquet)。
    3. 如果是 .csv 檔案,請選取欄分隔符號,以及是否要將檔案的第一列作為列標題。
    4. 選取儲存
  4. 在上次更新中,選取時間戳記屬性。

  5. 如果未選取主索引鍵,請選取主索引鍵。 主索引鍵是資料表的唯一屬性。 若要讓屬性成為有效的主索引鍵,其中不能包含重複值、遺漏值或 Null 值。 字串、整數及 GUID 資料類型屬性均支援主索引鍵。

  6. 選取關閉以儲存並關閉窗格。

  7. 繼續新增或編輯資料來源。

執行 Azure Data Lake 資料來源的一次性完整重新整理

為 Azure Data Lake 資料來源設定累加式重新整理之後,有時需要透過完整重新整理來處理資料。 為累加式重新整理設定的完整資料夾必須包含完整資料的位置。

  1. 編輯資料來源時,請瀏覽至選取資料表窗格,然後編輯您要重新整理的資料表。

  2. 編輯資料表窗格,捲動至執行一次性完整重新整理核取方塊,然後選取它。

    在資料來源中設定資料表以進行一次性重新整理。

  3. 若要處理特定時間後的累加檔案 ,請指定要保留累加檔案的日期和時間。 完整資料加上增量資料會在指定的日期與時間之後開始處理。 例如,如果您想要在 11 月底之前執行部分資料重新整理/回填,同時保留從 12 月初到今天 (12 月 30 日) 的增量資料,請輸入 12 月 1 日。 若要取代所有資料,並忽略累加資料夾中的資料,請指定未來的日期。

  4. 選取關閉以儲存並關閉窗格。

  5. 選取儲存以套用變更,並返回至資料來源頁面。 資料來源正處於重新整理中的狀態,正在執行完整重新整理。