分享方式:


教學課程:寫入儲存在 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表

本教學課程說明如何建立串流分析作業,以寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。 在本教學課程中,您會了解如何:

  • 部署將範例數據傳送至事件中樞的事件產生器
  • 建立串流分析作業
  • 使用差異數據表設定 Azure Data Lake 儲存體 Gen2
  • 執行串流分析作業

必要條件

開始之前,請先完成下列步驟:

建立串流分析作業

  1. 登入 Azure 入口網站

  2. 選取左側功能表上的 [所有服務]

  3. 將滑鼠移至 [分析] 區段中的 [串流分析作業] 上方,然後選取 [+ ][加號]。

    顯示 [所有服務] 頁面中串流分析作業選取項目的螢幕快照。

  4. 選取 Azure 入口網站左上角的 [建立資源] 。

  5. 從結果清單中選取 [分析]>[串流分析作業]

  6. 在 [新增串流分析作業] 頁面上,遵循下列步驟:

    1. 針對 [訂用帳戶],選取您的 Azure 訂用帳戶。
    2. 針對 [ 資源群組],選取您稍早在TollApp部署中使用的相同資源。
    3. 針對 [名稱],輸入作業的名稱。 串流分析作業名稱只可包含英數字元、連字號與底線,且其長度必須介於 3 到 63 個字元之間。
    4. 針對 [裝載環境],確認已選取 [雲端]
    5. 針對 [串流單位],選取 [1]。 串流單位代表執行作業所需的計算資源。 若要深入了解如何調整串流單位,請參閱了解與調整串流單位一文。

    顯示 [建立串流分析作業] 頁面的螢幕快照。

  7. 選取頁面底部的 [檢閱 + 建立] 。

  8. 在 [檢閱 + 建立] 頁面上檢閱設定,然後選取 [建立] 以建立串流分析頁面。

  9. 在 [部署] 頁面上,選取 [移至資源] 以瀏覽至 [串流分析作業] 頁面。

設定作業輸入

下一個步驟是定義作業的輸入來源,以使用 TollApp 部署中建立的事件中樞來讀取數據。

  1. 尋找在上一節中建立的串流分析作業。

  2. 在串流分析作業的 [作業拓撲] 區段中,選取 [輸入]。

  3. 選取 [+ 新增輸入 ] 和 [事件中樞]。

    顯示 [輸入] 頁面的螢幕快照。

  4. 填寫輸入表單,其中包含透過 TollApp Azure 範本建立的下列值:

    1. 針對 [輸入別名],輸入 entrystream

    2. 選擇 [從您的訂用帳戶選取事件中樞]。

    3. 針對 [訂用帳戶],選取您的 Azure 訂用帳戶。

    4. 針對 [ 事件中樞命名空間],選取您在上一節中建立的事件中樞命名空間。

    5. 在其餘設定上使用預設選項,然後選取 [ 儲存]。

      顯示輸入事件中樞選取項目的螢幕快照。

設定作業輸出

下一個步驟是定義作業可以寫入數據的輸出接收。 在本教學課程中,您會將輸出寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。

  1. 在串流分析作業的 [ 作業拓撲 ] 區段中,選取 [ 輸出 ] 選項。

  2. 選取 [+ 新增輸出>Blob 記憶體/ADLS Gen2]。

    顯示 [輸出] 頁面的螢幕快照。

  3. 以下列詳細數據填入輸出表單,然後選取 [ 儲存]:

    1. 針對 [ 輸出別名],輸入 DeltaOutput

    2. 選擇 [從您的訂用帳戶選取 Blob 記憶體/ADLS Gen2]。

    3. 針對 [訂用帳戶],選取您的 Azure 訂用帳戶。

    4. 針對 儲存體 帳戶,請選擇您建立的 ADLS Gen2 帳戶(開頭為 tollapp 的帳戶。

    5. 針對 容器,選取 [ 新建 ],並提供唯 一的容器名稱

    6. 針對 [ 事件串行化格式],選取 [ Delta Lake]。 雖然 Delta Lake 在這裡列為其中一個選項,但它不是數據格式。 Delta Lake 會使用已建立版本的 Parquet 檔案來儲存您的數據。 若要深入瞭解 Delta Lake

    7. 針對 Delta 資料表路徑,輸入 tutorial 資料夾/差異數據表

    8. 在其餘設定上使用預設選項,然後選取 [ 儲存]。

      顯示輸出組態的螢幕快照。

建立查詢

此時,您已設定串流分析作業來讀取傳入數據流。 下一個步驟是建立可即時分析數據的查詢。 查詢會使用類似 SQL 的語言,其具有串流分析特定的一些擴充功能。

  1. 現在,從左側功能表中選取 [作業拓撲] 底下的 [查詢]

  2. 將下列查詢輸入查詢視窗中。 在此範例中,查詢會從事件中樞讀取數據,並將選取的值複製到 ADLS Gen2 中的 Delta 數據表。

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. 在工具列上選取 [儲存查詢]

    顯示作業查詢的螢幕快照。

啟動串流分析工作並查看輸出

  1. 返回 Azure 入口網站 中的作業概觀頁面,然後選取 [開始]。

    顯示 [概觀] 頁面上選取 [開始作業] 按鈕的螢幕快照。

  2. 在 [ 開始作業] 頁面上,確認 [現在 ] 已選取 [作業輸出開始時間],然後選取 頁面底部的 [開始 ]。

    顯示 [開始作業] 頁面選取項目的螢幕快照。

  3. 幾分鐘後,在入口網站中尋找您設定為作業輸出的儲存體帳戶和容器。 您現在可以在容器中指定的資料夾中看到差異資料表。 第一次啟動作業需要幾分鐘的時間,作業一旦啟動後,即會在資料送達時繼續執行。

    顯示容器中輸出數據檔的螢幕快照。

清除資源

若不再需要,請刪除資源群組、串流分析作業和所有相關資源。 刪除作業可避免因為作業使用串流單位而產生費用。 如果您計劃在未來使用該作業,您可以將其停止並在之後需要時重新啟動。 如果您不打算繼續使用此作業,請使用下列步驟刪除本教學課程所建立的所有資源:

  1. 從 Azure 入口網站的左側功能表中,選取 [資源群組],然後選取您所建立資源的名稱。
  2. 在資源群組頁面上,選取 [刪除],在文字方塊中輸入要刪除的資源名稱,然後選取 [刪除]。

下一步

在本教學課程中,您已建立簡單的串流分析作業、篩選傳入數據,並在 ADLS Gen2 帳戶中的 Delta 數據表中寫入結果。 若要深入瞭解串流分析作業: