如何在 Azure Cosmos DB for PostgreSQL 中使用 Azure Data Factory 來內嵌資料

適用於: Azure Cosmos DB for PostgreSQL (由 PostgreSQL 的超大規模 (Citus) 資料庫延伸模組提供)

Azure Data Factory 是雲端式 ETL 和資料整合服務。 其可讓您建立資料驅動的工作流程,以大規模移動和轉換資料。

使用 Azure Data Factory,您可以建立並排程資料驅動工作流程 (稱為管線),其可以擷取來自不同資料存放區的資料。 管線可以在內部部署、在 Azure 中或在其他雲端提供者上執行,以進行分析和報告。

Data Factory 具有適用於 Azure Cosmos DB for PostgreSQL 的資料接收器。 資料接收器可讓您將資料 (關聯式、NoSQL、資料湖檔案) 帶入 Azure Cosmos DB for PostgreSQL,以進行儲存、處理及報告。

Dataflow diagram for Azure Data Factory.

重要

Data Factory 目前不支援 Azure Cosmos DB for PostgreSQL 私人端點。

用於即時擷取的 Data Factory

以下是選擇 Azure Data Factory 將資料擷取至 Azure Cosmos DB for PostgreSQL 的重要原因:

  • 易於使用 - 提供無程式碼的視覺環境,以協調並自動化資料移動。
  • 強大 - 使用基礎網路頻寬的完整容量,高達 5 GiB/秒輸送量。
  • 內建連接器:能夠整合您的所有資料來源,且具有超過 90 個內建連接器。
  • 符合成本效益:支援隨用隨付且完全受控的無伺服器雲端服務,可依需求進行調整。

使用 Data Factory 的步驟

在此文章中,您會使用 Data Factory 使用者介面 (UI) 建立資料管線。 此資料處理站中的管線會將資料從 Azure Blob 儲存體複製到資料庫。 如需支援作為來源和接收的資料存放區清單,請參閱支援的資料存放區表格。

在 Data Factory 中,您可以使用 [複製] 活動,將位於內部部署與雲端中之資料存放區內的資料複製到 Azure Cosmos DB for PostgreSQL。 如果您不熟悉 Data Factory,以下是如何開始使用的快速指南:

  1. 在佈建 Data Factory 之後,請移至您的資料處理站並啟動 Azure Data Factory 工作室。 您會看到如下圖所示的 Data Factory 首頁:

    Screenshot showing the landing page of Azure Data Factory.

  2. 在 Azure Data Factory 工作室的首頁上選取協調

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. 在 [屬性] 下,輸入管線的名稱。

  4. 活動工具箱中展開移動和轉換類別,並將複製資料活動拖放至管線設計工具介面。 在設計工具窗格底部的 [一般] 索引標籤上,輸入複製活動的名稱。

    Screenshot showing a pipeline in Azure Data Factory.

  5. 設定 [來源]

    1. 活動頁面上,選取來源索引標籤。選取新增以建立來源資料集。

    2. 在 [新增資料集] 對話方塊中,選取 [Azure Blob 儲存體],然後選取 [繼續]

    3. 選擇資料的格式類型,然後選取 [繼續]

    4. 在 [設定屬性] 頁面的 [已連結的服務] 下,選取 [新增]

    5. 在 [新增連結服務] 頁面上輸入連結服務的名稱,然後從 [儲存體帳戶名稱] 清單中選取您的儲存體帳戶。

      Screenshot that shows configuring Source in Azure Data Factory.

    6. 在 [測試連線] 下,選取 [To file path] \(至檔案路徑\),輸入要連線的容器與目錄,然後選取 [測試連線]

    7. 選取 [建立] 以儲存設定。

    8. 在 [設定屬性] 畫面上,選取 [確定]

  6. 設定 [接收器]

    1. 活動頁面上,選取接收索引標籤。選取新增以建立接收資料集。

    2. 在 [新增資料集] 對話方塊中,選取 [適用於 PostgreSQL 的 Azure 資料庫],然後選取 [繼續]

    3. 在 [設定屬性] 頁面的 [已連結的服務] 下,選取 [新增]

    4. 新增連結服務頁面上,輸入連結服務的名稱,然後從帳戶選取範圍方法中選取手動輸入

    5. 完整網域名稱欄位中輸入叢集的協調器名稱。 您可以從 Azure Cosmos DB for PostgreSQL 叢集的概觀頁面複製協調器的名稱。

    6. 將預設 5432 連接埠保留在連接埠欄位中,以便直接連線到協調器,或將它取代為 6432 連接埠,以連線到受控 PgBouncer 連接埠

    7. 在您的叢集上輸入資料庫名稱,並提供認證以連線。

    8. 加密方法下拉式清單中選取SSL

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. 選取面板底部的測試連線,以驗證接收設定。

    10. 選取 [建立] 以儲存設定。

    11. 在 [設定屬性] 畫面上,選取 [確定]

    12. 活動頁面上的接收索引標籤中,選取接收資料集下拉式清單旁的開啟,然後選取您要內嵌資料之目的地叢集上的資料表名稱。

    13. 在 [寫入方法] 下,選取 [複製命令]

    Screenshot that shows selecting the table and Copy command.

  7. 從畫布上方的工具列中,選取 [驗證] 以驗證管線設定。 修正任何錯誤、重新驗證,並確定成功驗證管線。

  8. 從工具列選取 [偵錯] 以執行管線。

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. 當管線可成功執行後,請在頂端的工具列中選取 [全部發佈]。 此動作會將您已建立的實體 (資料集和管線) 發佈至 Data Factory。

在 Data Factory 中呼叫預存程序

在某些特定案例中,您可以需要呼叫預存程序/函式,以將彙總的資料從暫存表格推送至摘要資料表。 Data Factory 並沒有提供適用於 Azure Cosmos DB for PostgreSQL 的預存程序活動,但作為因應措施,您可以使用 Lookup 活動搭配查詢來呼叫預存程序,如下所示:

Screenshot that shows calling a procedure in Azure Data Factory.

下一步