Share via


以 Parquet 格式從事件中樞擷取資料

本文說明如何使用無程式碼編輯器,從 Parquet 格式的 Azure Data Lake Storage Gen2 帳戶中,自動擷取事件中樞的串流資料。

必要條件

  • 具有事件中樞的 Azure 事件中樞命名空間,以及有容器可儲存所擷取資料的 Azure Data Lake Storage Gen2 帳戶。 這些資源必須可公開存取,且不可位於防火牆後方或在 Azure 虛擬網路中受保護。

    如果您沒有事件中樞,請依照快速入門;建立事件中樞中的指示建立一個。

    如果您沒有 Data Lake Storage Gen2 帳戶,請依照建立儲存體帳戶中的指示建立一個帳戶。

  • 事件中樞中的資料必須以 JSON、CSV 或 Avro 格式序列化。 基於測試目的,請選取左側功能表上的 [產生資料 (預覽)],選取資料集的 [庫存資料],然後選取 [傳送]

    Screenshot showing the Generate data page to generate sample stocks data.

設定作業以擷取資料

使用下列步驟來設定串流分析作業,以擷取 Azure Data Lake Storage Gen2 中的資料。

  1. 在 Azure 入口網站中,瀏覽至您的事件中樞。

  2. 在左側功能表上,選取 [功能] 之下的 [處理資料]。 然後在 [以 Parquet 格式將資料擷取至 ADLS Gen2] 卡片上選取 [開始]

    Screenshot showing the Process Event Hubs data start cards.

  3. 為您的串流分析作業輸入名稱,然後選取 [建立]

    Screenshot showing the New Stream Analytics job window where you enter the job name.

  4. 在事件中樞指定資料的 [序列化] 類型,以及作業用於連線到事件中樞的 [驗證方法]。 然後選取 [連線]。

    Screenshot showing the Event Hubs connection configuration.

  5. 成功建立連線時,您會看到:

    • 輸入資料中的欄位。 您可以選擇 [新增欄位],也可以選取欄位旁的三個點符號,以選擇性地移除、重新命名或變更其名稱。

    • 圖表檢視下 [資料預覽] 資料表中傳入資料的即時範例。 該範例會定期重新整理。 您可以選取 [暫停串流預覽] 來檢視範例輸入的靜態檢視。

      Screenshot showing sample data under Data Preview.

  6. 選取 [Azure Data Lake Storage Gen2] 圖格以編輯設定。

  7. 在 [Azure Data Lake Storage Gen2 設定] 頁面上,遵循下列步驟:

    1. 從下拉式功能表中選取訂用帳戶、儲存體帳戶名稱和容器。

    2. 選取訂用帳戶之後,系統應會自動填入驗證方法和儲存體帳戶金鑰。

    3. 針對 [序列化] 格式,選取 [Parquet]

      Screenshot showing the Data Lake Storage Gen2 configuration page.

    4. 對於串流 Blob,目錄路徑模式必須是動態值。 日期必須是 Blob 檔案路徑的一部分,稱為 {date}。 若要了解自訂路徑模式,請參閱 Azure 串流分析自訂 Blob 輸出分割

      First screenshot showing the Blob window where you edit a blob's connection configuration.

    5. 選取連線

  8. 建立連線時,您會看到輸出資料中存在的欄位。

  9. 在命令列上選取 [儲存],以便儲存設定。

    Screenshot showing the Save button selected on the command bar.

  10. 在命令列上選取 [啟動],以便啟動串流流程來擷取資料。 然後在 [啟動串流分析] 作業視窗中:

    1. 選擇輸出開始時間。

    2. 選取定價方案。

    3. 選取作業執行時的串流單位 (SU) 數目。 SU 代表配置用來執行串流分析作業的計算資源。 如需詳細資訊,請參閱 Azure 串流分析串流單位

      Screenshot showing the Start Stream Analytics job window where you set the output start time, streaming units, and error handling.

  11. 您應該會在您事件中樞的 [處理處理] 頁面的 [串流分析作業] 索引標籤中看到串流分析作業。

    Screenshot showing the Stream Analytics job on the Process data page.

驗證輸出

  1. 在您的事件中樞的 [事件中樞執行個體] 頁面上,選取 [產生資料],選取 [資料集] 的 [庫存資料],然後選取 [傳送] 將一些範例資料傳送至事件中樞。

  2. 確認 Parquet 檔案是否在 Azure Data Lake Storage 容器中產生的。

    Screenshot showing the generated Parquet files in the ADLS container.

  3. 選取左側功能表上的 [處理資料]。 切換至 [串流分析作業] 索引標籤。選取 [開啟計量] 加以監視。

    Screenshot showing Open Metrics link selected.

    以下是顯示輸入和輸出事件的計量範例螢幕擷取畫面。

    Screenshot showing metrics of the Stream Analytics job.

下一步

現在,您已了解如何使用串流分析,而不需要程式碼編輯器來建立作業,以 Parquet 格式擷取至 Azure Data Lake Storage Gen2 的事件中樞資料。 接下來,您可以深入了解 Azure 串流分析,以及如何監視您所建立的作業。