教學課程:寫入儲存在 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表 (公開預覽)

本教學課程說明如何建立串流分析作業,以寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。 在本教學課程中,您會了解如何:

  • 部署將範例數據傳送至事件中樞的事件產生器
  • 建立串流分析作業
  • 使用差異數據表設定 Azure Data Lake 儲存體 Gen2
  • 執行串流分析作業

必要條件

開始之前,請先完成下列步驟:

建立串流分析作業

  1. 登入 Azure 入口網站

  2. 選取 左側功能表上的 [所有服務 ]。

  3. 將滑鼠移至 [分析] 區段中的 [串流分析作業] 上方,然後選取 [+ ][加號]。

    Screenshot that shows the selection of Stream Analytics jobs in the All services page.

  4. 選取 Azure 入口網站左上角的 [建立資源] 。

  5. 從結果清單中選取 [分析>串流分析作業]。

  6. 在 [ 新增串流分析作業 ] 頁面上,遵循下列步驟:

    1. 針對 [ 訂用帳戶],選取您的 Azure 訂用帳戶。
    2. 針對 [ 資源群組],選取您稍早在TollApp部署中使用的相同資源。
    3. 針對 [ 名稱],輸入作業的名稱。 串流分析作業名稱只能包含英數位元、連字元和底線,且長度必須介於 3 到 63 個字元之間。
    4. 針對 [ 裝載環境],確認已 選取 [雲端 ]。
    5. 針對 [ 串流單位],選取 [1]。 串流單位代表執行作業所需的計算資源。 若要瞭解如何調整串流單位,請參閱 瞭解和調整串流單位 一文。

    Screenshot that shows the Create Stream Analytics job page.

  7. 選取頁面底部的 [檢閱 + 建立] 。

  8. 在 [ 檢閱 + 建立] 頁面上,檢閱設定,然後選取 [建立 ] 以建立串流分析頁面。

  9. 在部署頁面上,選取 [移至資源 ] 以流覽至 [ 串流分析作業 ] 頁面。

設定作業輸入

下一個步驟是定義作業的輸入來源,以使用 TollApp 部署中建立的事件中樞來讀取數據。

  1. 尋找在上一節中建立的串流分析作業。

  2. 在串流分析作業的 [作業拓撲] 區段中,選取 [輸入]。

  3. 選取 [+ 新增輸入 ] 和 [事件中樞]。

    Screenshot that shows the Inputs page.

  4. 填寫輸入表單,其中包含透過 TollApp Azure 範本建立的下列值:

    1. 針對 [輸入別名],輸入 entrystream

    2. 選擇 [從您的訂用帳戶選取事件中樞]。

    3. 針對 [ 訂用帳戶],選取您的 Azure 訂用帳戶。

    4. 針對 [ 事件中樞命名空間],選取您在上一節中建立的事件中樞命名空間。

    5. 在其餘設定上使用預設選項,然後選取 [ 儲存]。

      Screenshot that shows the selection of the input event hub.

設定作業輸出

下一個步驟是定義作業可以寫入數據的輸出接收。 在本教學課程中,您會將輸出寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。

  1. 在串流分析作業的 [ 作業拓撲 ] 區段中,選取 [ 輸出 ] 選項。

  2. 選取 [+ 新增輸出>Blob 記憶體/ADLS Gen2]。

    Screenshot that shows the Outputs page.

  3. 以下列詳細數據填入輸出表單,然後選取 [ 儲存]:

    1. 針對 [ 輸出別名],輸入 DeltaOutput

    2. 選擇 [從您的訂用帳戶選取 Blob 記憶體/ADLS Gen2]。

    3. 針對 [ 訂用帳戶],選取您的 Azure 訂用帳戶。

    4. 針對 儲存體 帳戶,請選擇您建立的 ADLS Gen2 帳戶(開頭為 tollapp 的帳戶。

    5. 針對 容器,選取 [ 新建 ],並提供唯 一的容器名稱

    6. 針對 [事件串行化格式],選取 [Delta Lake][預覽]。 雖然 Delta Lake 在這裡列為其中一個選項,但它不是數據格式。 Delta Lake 會使用已建立版本的 Parquet 檔案來儲存您的數據。 若要深入瞭解 Delta Lake

    7. 針對 Delta 資料表路徑,輸入 tutorial 資料夾/差異數據表

    8. 在其餘設定上使用預設選項,然後選取 [ 儲存]。

      Screenshot that shows configuration of the output.

建立查詢

此時,您已設定串流分析作業來讀取傳入數據流。 下一個步驟是建立可即時分析數據的查詢。 查詢會使用類似 SQL 的語言,其具有串流分析特定的一些擴充功能。

  1. 現在,選取左側功能表上的 [作業拓撲] 底下的 [查詢]。

  2. 在查詢視窗中輸入下列查詢。 在此範例中,查詢會從事件中樞讀取數據,並將選取的值複製到 ADLS Gen2 中的 Delta 數據表。

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. 選取工具列上的 [ 儲存查詢 ]。

    Screenshot that shows query for the job.

啟動串流分析作業並檢查輸出

  1. 返回 Azure 入口網站 中的作業概觀頁面,然後選取 [開始]。

    Screenshot that shows the selection of Start job button on the Overview page.

  2. 在 [ 開始作業] 頁面上,確認 [現在 ] 已選取 [作業輸出開始時間],然後選取 頁面底部的 [開始 ]。

    Screenshot that shows the selection of Start job page.

  3. 幾分鐘后,在入口網站中,尋找記憶體帳戶和您已設定為作業輸出的容器。 您現在可以在容器中指定的資料夾中看到差異資料表。 作業需要幾分鐘的時間才能第一次啟動,在數據送達時會繼續執行。

    Screenshot that shows output data files in the container.

清除資源

不再需要時,請刪除資源群組、串流分析作業和所有相關資源。 刪除作業可避免計費作業所耗用的串流單位。 如果您打算在未來使用作業,您可以在需要時將其停止並稍後重新啟動。 如果您不打算繼續使用此作業,請使用下列步驟刪除本教學課程所建立的所有資源:

  1. 從 Azure 入口網站 左側功能表中,選取 [資源群組],然後選取您建立的資源名稱。
  2. 在資源群組頁面上,選取 [刪除],在文本框中輸入要刪除的資源名稱,然後選取 [刪除]。

下一步

在本教學課程中,您已建立簡單的串流分析作業、篩選傳入數據,並在 ADLS Gen2 帳戶中的 Delta 數據表中寫入結果。 若要深入瞭解串流分析作業: