以 Parquet 格式從事件中樞擷取資料

發行項
08/09/2024

本文說明如何使用無程式碼編輯器，從 Parquet 格式的 Azure Data Lake Storage Gen2 帳戶中，自動擷取事件中樞的串流資料。

必要條件

具有事件中樞的 Azure 事件中樞命名空間，以及有容器可儲存所擷取資料的 Azure Data Lake Storage Gen2 帳戶。這些資源必須可公開存取，且不可位於防火牆後方或在 Azure 虛擬網路中受保護。

如果您沒有事件中樞，請依照快速入門；建立事件中樞中的指示建立一個。

如果您沒有 Data Lake Storage Gen2 帳戶，請依照建立儲存體帳戶中的指示建立一個帳戶。
事件中樞中的資料必須以 JSON、CSV 或 Avro 格式序列化。基於測試目的，請選取左側功能表上的 [產生資料 (預覽)]，選取資料集的 [庫存資料]，然後選取 [傳送]。

設定作業以擷取資料

使用下列步驟來設定串流分析作業，以擷取 Azure Data Lake Storage Gen2 中的資料。

在 Azure 入口網站中，瀏覽至您的事件中樞。
在左側功能表上，選取 [功能] 之下的 [處理資料]。然後在 [以 Parquet 格式將資料擷取至 ADLS Gen2] 卡片上選取 [開始]。
為您的串流分析作業輸入名稱，然後選取 [建立]。
在事件中樞指定資料的 [序列化] 類型，以及作業用於連線到事件中樞的 [驗證方法]。然後選取 [連線]。
成功建立連線時，您會看到：
- 輸入資料中的欄位。您可以選擇 [新增欄位]，也可以選取欄位旁的三個點符號，以選擇性地移除、重新命名或變更其名稱。
- 圖表檢視下 [資料預覽] 資料表中傳入資料的即時範例。該範例會定期重新整理。您可以選取 [暫停串流預覽] 來檢視範例輸入的靜態檢視。
選取 [Azure Data Lake Storage Gen2] 圖格以編輯設定。
在 [Azure Data Lake Storage Gen2 設定] 頁面上，遵循下列步驟：
1. 從下拉式功能表中選取 [訂用帳戶]、[儲存體帳戶名稱] 和 [容器]。
2. 選取訂用帳戶之後，系統應會自動填入驗證方法和儲存體帳戶金鑰。
3. 針對 [序列化] 格式，選取 [Parquet]。
4. 對於串流 Blob，目錄路徑模式必須是動態值。日期必須是 Blob 檔案路徑的一部分，稱為 {date}。若要了解自訂路徑模式，請參閱 Azure 串流分析自訂 Blob 輸出分割。
5. 選取連線
建立連線時，您會看到輸出資料中存在的欄位。
在命令列上選取 [儲存]，以便儲存設定。
在命令列上選取 [啟動]，以便啟動串流流程來擷取資料。然後在 [啟動串流分析] 作業視窗中：
1. 選擇輸出開始時間。
2. 選取定價方案。
3. 選取作業執行時的串流單位 (SU) 數目。 SU 代表配置用來執行串流分析作業的計算資源。如需詳細資訊，請參閱 Azure 串流分析串流單位。
您應該會在您事件中樞的 [處理處理] 頁面的 [串流分析作業] 索引標籤中看到串流分析作業。