如何將歷程記錄數據內嵌至 Azure Data Explorer
登入 Azure Data Explorer 時常見的案例是內嵌歷程記錄數據,有時稱為「回填」。 此程式牽涉到將數據從現有的儲存系統內嵌到數據表中,這是 範圍的集合。
建議您使用 creationTime 擷取屬性 來擷取歷程記錄數據,將範圍的建立時間設定為 建立數據的時間。 使用建立時間作為擷取數據分割準則,即可 根據快取 和 保留 原則來存留您的數據,並讓時間篩選更有效率。
根據預設,範圍建立時間會設定為擷取數據的時間,這可能不會產生您預期的行為。 例如,假設您有一個數據表,其快取期間為30天,保留期限為兩年。 在正常流程中,擷取產生的數據會快取 30 天,然後移至冷記憶體。 在兩年後,根據建立時間,一次移除一天較舊的數據。 不過,如果您擷取兩年的歷程記錄數據,根據預設,數據會以建立時間標示為擷取數據的時間。 這可能不會產生所需的結果,因為:
- 所有數據都會進入快取,並保留 30 天,使用比您預期的快取還要多。
- 舊版數據不會一次移除一天;因此,數據會保留在叢集中超過必要時間,而且在兩年後,一次全部移除。
- 先前依來源系統中日期分組的數據,現在可能在同一個範圍內 批處理 ,導致查詢效率不佳。
在本文中,您將瞭解如何分割歷程記錄數據:
creationTime
在擷取期間使用擷取屬性 (建議的)可能的話,使用
creationTime
擷取屬性擷取歷程記錄數據,可讓您藉由從檔案或 Blob 路徑擷取範圍來設定範圍的建立時間。 如果您的資料夾結構未使用建立日期模式,建議您重新建構檔案或 Blob 路徑,以反映建立時間。 藉由使用此方法,數據會內嵌到具有正確建立時間的數據表中,並正確套用快取和保留期間。注意
根據預設,範圍會依建立 (擷取) 進行分割,在大部分情況下不需要設定數據分割原則。
使用數據分割原則后擷取
如果您無法使用
creationTime
擷取屬性,例如,如果您使用 Azure Cosmos DB 連接器 來擷取數據,而您無法控制建立時間,或如果您無法重新建構資料夾結構,則可以重新分割數據表後擷取,以使用 分割原則達到相同的效果。 不過,此方法可能需要一些試用和錯誤來優化原則屬性,而且比使用creationTime
擷取屬性更有效率。 我們只有在無法使用creationTime
擷取屬性時,才建議使用此方法。
必要條件
- Microsoft 帳戶或 Microsoft Entra 使用者身分識別。 不需要 Azure 訂用帳戶。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
- 記憶體帳戶。
- 如需在擷取期間使用
creationTime
擷取屬性的建議方法, 請安裝 LightIngest。
內嵌歷程資料
強烈建議在擷取期間使用 creationTime
擷取屬性來分割歷程記錄數據。 不過,如果您無法使用此方法,您可以使用數據分割原則重新分割數據表后擷取。
LightIngest 有助於將歷程記錄數據從現有的記憶體系統載入 Azure Data Explorer。 雖然您可以使用 命令行自變數清單來建置自己的命令,但本文會示範如何透過擷取精靈自動產生此命令。 除了建立命令之外,您還可以使用此程式來建立新的數據表,以及建立架構對應。 此工具會從數據集推斷架構對應。
目的地
在 Azure Data Explorer Web UI 的左側功能表中,選取 [查詢]。
以滑鼠右鍵按下您要內嵌數據的資料庫,然後選取 [ LightIngest]。
[ 內嵌數據 ] 視窗隨即開啟,並選取 [ 目的地] 索引卷 標。 [叢集] 和 [資料庫] 字段會自動填入。
選取目標數據表。 如果您想要將資料內嵌到新的資料表,請選取 [ 新增數據表],然後輸入數據表名稱。
注意
數據表名稱最多可以有 1024 個字元,包括空格、英數位元、連字元和底線。 但不支援萬用字元。
選取 [下一步:來源]。
Source
在 [選取來源] 下,選取 [ 新增 URL ] 或 [選取容器]。
新增 URL 時,請在 [ 鏈接至來源] 底下,將帳戶密鑰或 SAS URL 指定至容器。 您可以 手動 或 自動建立 SAS URL。
從記憶體帳戶選取容器時,請從下拉功能表中選取您的記憶體 訂用 帳戶、記憶體帳戶和 容器 。
注意
擷取最多可支援 6GB 的檔案大小。 建議內嵌 100 MB 和 1 GB 之間的檔案。
選取 [進階設定 ],以使用 LightIngest 定義擷取程式的其他設定。
在 [ 進階設定 ] 窗格中,根據下表定義 LightIngest 設定。
屬性 Description 建立時間模式 指定以模式覆寫所建立範圍的擷取時間屬性,例如,根據容器的資料夾結構套用日期。 另請參閱 建立時間模式。 Blob 名稱模式 指定用來識別要內嵌之檔案的模式。 擷取符合指定容器中 Blob 名稱模式的所有檔案。 支援通配符。 我們建議以雙引弧括住。 標籤 指派給內嵌數據的 標記 。 標籤可以是任何字串。 限制檔案數量 指定可擷取的檔案數目。 擷取符合 Blob 名稱模式的第一個 n
檔案,最多可擷取指定的數位。不要等待擷取完成 如果設定,則會將 Blob 排入佇列以擷取而不監視擷取程式。 如果未設定,LightIngest 會繼續輪詢擷取狀態,直到擷取完成為止。 僅顯示選取的專案 列出容器中的檔案,但不會擷取它們。 選取 [完成 ] 以返回 [ 來源] 索引標籤 。
您可以選擇性地選取 [ 檔案篩選 ] 來篩選數據,以只擷取特定資料夾路徑或具有特定擴展名的檔案。
根據預設,會隨機選取容器中的其中一個檔案,並用來產生數據表的架構。
您可以選擇性地在 [架構定義檔案] 底下,指定要使用的檔案。
選取 [下一步:架構 ] 以檢視和編輯數據表數據行組態。
結構描述
架構索引標籤提供數據的預覽。
若要產生 LightIngest 命令,請選取 [ 下一步:開始擷取]。
選擇性:
- 從下拉功能表中選取所需的格式,以變更自動推斷 的數據格式 。
- 變更自動推斷的 對應名稱。 您可使用英數位元和底線。 不支援空格、特殊字元和連字號。
- 使用現有的數據表時,如果數據表架構符合選取的格式,您可以 保留目前的數據表架構 。
- 選取 [命令檢視器 ] 以檢視和複製從輸入產生的自動命令。
- 編輯數據行。 在 [部分數據預覽] 下,選取數據行下拉功能表,以改變數據表的各個層面。
您可對資料表進行的變更視下列參數而定:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
資料表類型 | 對應類型 | 可用的調整 |
---|---|---|
新增資料表 | 新的對應 | 變更資料類型、重新命名資料行、新增資料行、刪除資料行、更新資料行、遞增排序、遞減排序 |
現有的資料表 | 新的對應 | 新的資料行 (您可以在此變更資料類型、重新命名和更新), 更新資料行、遞增排序、遞減排序 |
現有的對應 | 遞增排序、遞減排序 |
注意
新增新的資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱對應轉換
擷取
一旦數據表、對應和 LightIngest 命令標示為綠色複選標記,請選取 [產生] 命令方塊右上方的複製圖示,以複製產生的 LightIngest 命令。
注意
如有需要,您可以選取 [ 下載 LightIngest] 來下載 LightIngest 工具。
若要完成擷取程式,您必須使用複製的命令 執行 LightIngest 。