以 Parquet 格式從事件中樞擷取資料
本文說明如何使用無程式碼編輯器,從 Parquet 格式的 Azure Data Lake Storage Gen2 帳戶中,自動擷取事件中樞的串流資料。
必要條件
具有事件中樞的 Azure 事件中樞命名空間,以及有容器可儲存所擷取資料的 Azure Data Lake Storage Gen2 帳戶。 這些資源必須可公開存取,且不可位於防火牆後方或在 Azure 虛擬網路中受保護。
如果您沒有事件中樞,請依照快速入門;建立事件中樞中的指示建立一個。
如果您沒有 Data Lake Storage Gen2 帳戶,請依照建立儲存體帳戶中的指示建立一個帳戶。
事件中樞中的資料必須以 JSON、CSV 或 Avro 格式序列化。 基於測試目的,請選取左側功能表上的 [產生資料 (預覽)],選取資料集的 [庫存資料],然後選取 [傳送]。
設定作業以擷取資料
使用下列步驟來設定串流分析作業,以擷取 Azure Data Lake Storage Gen2 中的資料。
在 Azure 入口網站中,瀏覽至您的事件中樞。
在左側功能表上,選取 [功能] 之下的 [處理資料]。 然後在 [以 Parquet 格式將資料擷取至 ADLS Gen2] 卡片上選取 [開始]。
為您的串流分析作業輸入名稱,然後選取 [建立]。
在事件中樞指定資料的 [序列化] 類型,以及作業用於連線到事件中樞的 [驗證方法]。 然後選取 [連線]。
成功建立連線時,您會看到:
選取 [Azure Data Lake Storage Gen2] 圖格以編輯設定。
在 [Azure Data Lake Storage Gen2 設定] 頁面上,遵循下列步驟:
從下拉式功能表中選取 [訂用帳戶]、[儲存體帳戶名稱] 和 [容器]。
選取訂用帳戶之後,系統應會自動填入驗證方法和儲存體帳戶金鑰。
針對 [序列化] 格式,選取 [Parquet]。
對於串流 Blob,目錄路徑模式必須是動態值。 日期必須是 Blob 檔案路徑的一部分,稱為
{date}
。 若要了解自訂路徑模式,請參閱 Azure 串流分析自訂 Blob 輸出分割。選取連線
建立連線時,您會看到輸出資料中存在的欄位。
在命令列上選取 [儲存],以便儲存設定。
在命令列上選取 [啟動],以便啟動串流流程來擷取資料。 然後在 [啟動串流分析] 作業視窗中:
選擇輸出開始時間。
選取定價方案。
選取作業執行時的串流單位 (SU) 數目。 SU 代表配置用來執行串流分析作業的計算資源。 如需詳細資訊,請參閱 Azure 串流分析串流單位。
您應該會在您事件中樞的 [處理處理] 頁面的 [串流分析作業] 索引標籤中看到串流分析作業。
驗證輸出
在您的事件中樞的 [事件中樞執行個體] 頁面上,選取 [產生資料],選取 [資料集] 的 [庫存資料],然後選取 [傳送] 將一些範例資料傳送至事件中樞。
確認 Parquet 檔案是否在 Azure Data Lake Storage 容器中產生的。
選取左側功能表上的 [處理資料]。 切換至 [串流分析作業] 索引標籤。選取 [開啟計量] 加以監視。
以下是顯示輸入和輸出事件的計量範例螢幕擷取畫面。
使用事件中樞異地復寫功能的考慮
Azure 事件中樞 最近啟動公開預覽版中的異地復寫功能。 這項功能與 Azure 事件中樞的異地災害復原功能不同。
當故障轉移類型為強制且復寫一致性為異步時,串流分析作業不保證輸出至 Azure 事件中樞 輸出的確切一次。
Azure 串流分析,作為 具有事件中樞輸出的產生者 ,可能會在故障轉移期間和事件中樞節流期間觀察到作業的浮水印延遲,以防主要和次要之間的複寫延遲達到設定的延遲上限。
Azure 串流分析,作為 事件中樞作為輸入的取用者 ,可能會在故障轉移期間觀察作業的浮浮水印延遲,而且可能會在故障轉移完成後略過數據或尋找重複的數據。
由於這些注意事項,建議您在事件中樞故障轉移完成之後,立即以適當的開始時間重新啟動串流分析作業。 此外,由於事件中樞異地復寫功能處於公開預覽狀態,因此目前不建議將此模式用於生產串流分析作業。 在事件中樞異地復寫功能正式推出之前,目前的串流分析行為將會改善,並可用於串流分析生產作業。
下一步
現在,您已了解如何使用串流分析,而不需要程式碼編輯器來建立作業,以 Parquet 格式擷取至 Azure Data Lake Storage Gen2 的事件中樞資料。 接下來,您可以深入了解 Azure 串流分析,以及如何監視您所建立的作業。