分享方式:


將資料擷取到 Azure Data Lake Storage Gen2 中

在本文中,您將了解如何使用 Azure Synapse Analytics,將資料從 Azure Data Lake Gen 2 (Azure Data Lake Gen 2) 儲存體帳戶的一個位置擷取到另一個位置。

必要條件

  • Azure 訂閱:如果您沒有 Azure 訂用帳戶,請在開始前建立免費 Azure 帳戶
  • Azure 儲存體帳戶:您使用 Azure Data Lake Gen 2 作為來源資料存放區。 如果您沒有儲存體帳戶,請參閱建立 Azure 儲存體帳戶,按照步驟建立一個。

建立連結的服務

在 Azure Synapse Analytics 中,連結服務可讓您定義其他服務的連線資訊。 在本節中,您要將 Azure Synapse Analytics 和 Azure Data Lake Gen 2 新增為連結服務。

  1. 開啟 Azure Synapse Analytics UX 並前往 [管理] 索引標籤。
  2. 在 [外部連線] 下,選取 [連結服務]。
  3. 若要新增連結服務,請選取 [新增]。
  4. 從清單中選取 [Azure Data Lake Storage Gen2] 磚,然後選取 [繼續]。
  5. 輸入您的驗證認證。 帳戶金鑰、服務主體和受控識別目前支援的驗證類型。 選取 [測試連線] 以確認您的認證正確無誤。
  6. 完成後,請選取 [建立]

建立管線

管線包含執行一組活動的邏輯流程。 在本節中,您將建立一個包含複製活動的管線,將資料從 Azure Data Lake Gen2 擷取到專用 SQL 集區中。

  1. 前往 [協調] 索引標籤。選取管線標題旁的加號圖示,然後選取 [管線]。
  2. 在活動窗格的 [移動與轉換] 下,將 [複製資料] 拖曳到管線畫布。
  3. 選取複製活動,然後前往 [來源] 索引標籤。選取 [新增] 以建立新的來源資料集。
  4. 選取 Azure Data Lake Storage Gen2 作為資料存放區,然後選取 [繼續]。
  5. 選取 DelimitedText 作為格式,然後選取 [繼續]。
  6. 在 [設定屬性] 窗格中,選取您所建立的 ADLS 連結服務。 指定來源資料的檔案路徑,並指定第一個資料列是否有標頭。 您可以從檔案存放區或範例檔案匯入架構。 於完成時選取 [確定]。
  7. 前往 [接收器] 索引標籤。選取 [新增] 以建立新的接收器資料集。
  8. 選取 Azure Data Lake Storage Gen2 作為資料存放區,然後選取 [繼續]。
  9. 選取 DelimitedText 做為您的格式,然後選取 [繼續]。
  10. 在 [設定屬性] 窗格中,選取您所建立的 ADLS 連結服務。 指定您想要寫入資料的資料夾路徑。 於完成時選取 [確定]。

偵錯和發佈管線

完成管線的設定後,您就可以在發佈成品之前執行偵錯執行,以確認一切正確無誤。

  1. 若要對管線進行偵錯,請選取工具列上的 [偵錯]。 您可以在視窗底部的 [輸出] 索引標籤中檢視管線執行的狀態。
  2. 當管線可成功執行後,請在頂端的工具列中選取 [全部發佈]。 此動作會將您建立的實體 (資料集和管線) 發佈至 Synapse Analytics 服務。
  3. 請靜待 [發佈成功] 訊息顯示。 若要查看通知訊息,請選取右上方的鈴鐺按鈕。

觸發和監視管線

在此步驟中,您會手動觸發上一個步驟中所發佈的管線。

  1. 選取工具列上的 [新增觸發程序],然後選取 [立即觸發]。 在 [管線執行] 頁面上,選取 [完成]。
  2. 移至左側資訊看板中的 [監視器] 索引標籤。 您會看到手動觸發程序所觸發的管線執行。 您可以使用 [動作] 資料行中的連結來檢視活動詳細資料,以及重新執行管線。
  3. 若要檢視與此管線執行相關聯的活動執行,請選取 [動作] 資料行中的 [檢視活動執行] 連結。 此範例中只有一個活動,因此您在清單中只會看到一個項目。 如需關於複製作業的詳細資料,請選取 [動作] 資料行中的 [詳細資料] 連結 (眼鏡圖示)。 選取頂端的 [管線執行] 可回到 [管線執行] 檢視。 若要重新整理檢視,請選取 [重新整理]。
  4. 確認您的資料已在專用 SQL 集區中正確寫入。

後續步驟

如需 Azure Synapse Analytics 資料整合的詳細資訊,請參閱將資料擷取到專用 SQL 集區中一文。