如何將歷程記錄數據內嵌至 Azure Data Explorer

登入 Azure Data Explorer 時常見的案例是內嵌歷程記錄數據,有時稱為「回填」。 此程式牽涉到將數據從現有的儲存系統內嵌到數據表中,這是 範圍的集合。

建議您使用 creationTime 擷取屬性 來擷取歷程記錄數據,將範圍的建立時間設定為 建立數據的時間。 使用建立時間作為擷取數據分割準則,即可 根據快取保留 原則來存留您的數據,並讓時間篩選更有效率。

根據預設,範圍建立時間會設定為擷取數據的時間,這可能不會產生您預期的行為。 例如,假設您有一個數據表,其快取期間為30天,保留期限為兩年。 在正常流程中,擷取產生的數據會快取 30 天,然後移至冷記憶體。 在兩年後,根據建立時間,一次移除一天較舊的數據。 不過,如果您擷取兩年的歷程記錄數據,根據預設,數據會以建立時間標示為擷取數據的時間。 這可能不會產生所需的結果,因為:

  • 所有數據都會進入快取,並保留 30 天,使用比您預期的快取還要多。
  • 舊版數據不會一次移除一天;因此,數據會保留在叢集中超過必要時間,而且在兩年後,一次全部移除。
  • 先前依來源系統中日期分組的數據,現在可能在同一個範圍內 批處理 ,導致查詢效率不佳。

此圖顯示使用預設建立時間擷取歷程記錄數據的預期結果與實際結果。

在本文中,您將瞭解如何分割歷程記錄數據:

  • creationTime在擷取期間使用擷取屬性 (建議的)

    可能的話,使用 creationTime 擷取屬性擷取歷程記錄數據,可讓您藉由從檔案或 Blob 路徑擷取範圍來設定範圍的建立時間。 如果您的資料夾結構未使用建立日期模式,建議您重新建構檔案或 Blob 路徑,以反映建立時間。 藉由使用此方法,數據會內嵌到具有正確建立時間的數據表中,並正確套用快取和保留期間。

    注意

    根據預設,範圍會依建立 (擷取) 進行分割,在大部分情況下不需要設定數據分割原則。

  • 使用數據分割原則后擷取

    如果您無法使用 creationTime 擷取屬性,例如,如果您使用 Azure Cosmos DB 連接器 來擷取數據,而您無法控制建立時間,或如果您無法重新建構資料夾結構,則可以重新分割數據表後擷取,以使用 分割原則達到相同的效果。 不過,此方法可能需要一些試用和錯誤來優化原則屬性,而且比使用 creationTime 擷取屬性更有效率。 我們只有在無法使用 creationTime 擷取屬性時,才建議使用此方法。

必要條件

內嵌歷程資料

強烈建議在擷取期間使用 creationTime 擷取屬性來分割歷程記錄數據。 不過,如果您無法使用此方法,您可以使用數據分割原則重新分割數據表后擷取。

LightIngest 有助於將歷程記錄數據從現有的記憶體系統載入 Azure Data Explorer。 雖然您可以使用 命令行自變數清單來建置自己的命令,但本文會示範如何透過擷取精靈自動產生此命令。 除了建立命令之外,您還可以使用此程式來建立新的數據表,以及建立架構對應。 此工具會從數據集推斷架構對應。

目的地

  1. 在 Azure Data Explorer Web UI 的左側功能表中,選取 [查詢]。

  2. 以滑鼠右鍵按下您要內嵌數據的資料庫,然後選取 [ LightIngest]。

    Azure Data Explorer Web UI 的螢幕快照,其中顯示資料庫更多功能表。

    [ 內嵌數據 ] 視窗隨即開啟,並選取 [ 目的地] 索引卷 標。 [叢集] 和 [資料庫] 字段會自動填入。

  3. 選取目標數據表。 如果您想要將資料內嵌到新的資料表,請選取 [ 新增數據表],然後輸入數據表名稱。

    注意

    數據表名稱最多可以有 1024 個字元,包括空格、英數位元、連字元和底線。 但不支援萬用字元。

    [目的地] 索引標籤的螢幕快照,其中顯示目的地資料庫和數據表。

  4. 選取 [下一步:來源]。

Source

  1. [選取來源] 下,選取 [ 新增 URL ] 或 [選取容器]。

    • 新增 URL 時,請在 [ 鏈接至來源] 底下,將帳戶密鑰或 SAS URL 指定至容器。 您可以 手動自動建立 SAS URL。

    • 從記憶體帳戶選取容器時,請從下拉功能表中選取您的記憶體 帳戶、記憶體帳戶容器

      從記憶體訂用帳戶和帳戶選取容器的對話框螢幕快照。

    注意

    擷取最多可支援 6GB 的檔案大小。 建議內嵌 100 MB 和 1 GB 之間的檔案。

  2. 選取 [進階設定 ],以使用 LightIngest 定義擷取程式的其他設定。

    選取涉及 LightIngest 工具之擷取處理之進階設定的螢幕快照。

  3. 在 [ 進階設定 ] 窗格中,根據下表定義 LightIngest 設定。

    進階組態窗格的螢幕快照,其中顯示涉及工具 LightIngest 之擷取處理的其他設定。

    屬性 Description
    建立時間模式 指定以模式覆寫所建立範圍的擷取時間屬性,例如,根據容器的資料夾結構套用日期。 另請參閱 建立時間模式
    Blob 名稱模式 指定用來識別要內嵌之檔案的模式。 擷取符合指定容器中 Blob 名稱模式的所有檔案。 支援通配符。 我們建議以雙引弧括住。
    標籤 指派給內嵌數據的 標記 。 標籤可以是任何字串。
    限制檔案數量 指定可擷取的檔案數目。 擷取符合 Blob 名稱模式的第一個 n 檔案,最多可擷取指定的數位。
    不要等待擷取完成 如果設定,則會將 Blob 排入佇列以擷取而不監視擷取程式。 如果未設定,LightIngest 會繼續輪詢擷取狀態,直到擷取完成為止。
    僅顯示選取的專案 列出容器中的檔案,但不會擷取它們。
  4. 選取 [完成 ] 以返回 [ 來源] 索引標籤

    1. 您可以選擇性地選取 [ 檔案篩選 ] 來篩選數據,以只擷取特定資料夾路徑或具有特定擴展名的檔案。

      擷取新數據畫面來源索引標籤中篩選數據的螢幕快照。

      根據預設,會隨機選取容器中的其中一個檔案,並用來產生數據表的架構。

    2. 您可以選擇性地在 [架構定義檔案] 底下,指定要使用的檔案。

  5. 選取 [下一步:架構 ] 以檢視和編輯數據表數據行組態。

結構描述

架構索引標籤提供數據的預覽。

若要產生 LightIngest 命令,請選取 [ 下一步:開始擷取]。

選擇性:

  • 從下拉功能表中選取所需的格式,以變更自動推斷 的數據格式
  • 變更自動推斷的 對應名稱。 您可使用英數位元和底線。 不支援空格、特殊字元和連字號。
  • 使用現有的數據表時,如果數據表架構符合選取的格式,您可以 保留目前的數據表架構
  • 選取 [命令檢視器 ] 以檢視和複製從輸入產生的自動命令。
  • 編輯數據行。 在 [部分數據預覽] 下,選取數據行下拉功能表,以改變數據表的各個層面。

您可對資料表進行的變更視下列參數而定:

  • 資料表類型是新的或現有的
  • 對應類型是新的或現有的
資料表類型 對應類型 可用的調整
新增資料表 新的對應 變更資料類型、重新命名資料行、新增資料行、刪除資料行、更新資料行、遞增排序、遞減排序
現有的資料表 新的對應 新的資料行 (您可以在此變更資料類型、重新命名和更新),
更新資料行、遞增排序、遞減排序
現有的對應 遞增排序、遞減排序

注意

新增新的資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱對應轉換

擷取

  1. 一旦數據表、對應和 LightIngest 命令標示為綠色複選標記,請選取 [產生] 命令方塊右上方的複製圖示,以複製產生的 LightIngest 命令。

    [摘要] 索引標籤的螢幕快照,其中已產生命令。您可以使用所產生命令方塊上方的複製圖示來複製命令。

    注意

    如有需要,您可以選取 [ 下載 LightIngest] 來下載 LightIngest 工具。

  2. 若要完成擷取程式,您必須使用複製的命令 執行 LightIngest