選擇資料擷取工具

在你選擇歷史資料的目標平台後,下一步是選擇一個工具來傳輸你的資料。

本文介紹了一組用於將您的歷史資料轉移到所選目標平台的不同工具。 此表列出各目標平台可用的工具,以及協助你完成資料擷取流程的通用工具。

Azure Monitor 基本日誌/封存 Azure 資料總管 Azure Blob 儲存體 一般工具
Azure Monitor 自訂日誌擷取工具
直接 API
LightIngest
木柴儲藏
Azure Data Factory or Azure Synapse
AzCopy
Azure Data Box
SIEM 資料遷移加速器

Azure Monitor 基本日誌/封存

在你將資料匯入 Azure Monitor Basic Logs 或 封存之前,為了降低擷取成本,請確保你寫入的資料表已設定為 Basic Logs。 檢視 Azure Monitor 自訂日誌擷取工具及 Azure Monitor 基本日誌的 Direct API 方法。

Azure Monitor custom log ingestion tool

自訂日誌擷取工具是一個 PowerShell 腳本,會將自訂資料傳送到 Azure Monitor 日誌工作區。 你可以把腳本指向所有日誌檔案所在的資料夾,腳本會把檔案推送到那個資料夾。 此腳本可接受 CSV 或 JSON 格式的日誌檔案。

直接 API

透過這個選項,你可以將自訂日誌匯入 Azure Monitor 日誌。 你用 PowerShell 腳本(使用 REST API)來匯入日誌。 或者,你也可以使用任何其他程式語言來執行擷取,也可以使用其他 Azure 服務來抽象計算層,例如 Azure Functions 或 Azure Logic Apps。

Azure 資料總管

你可以用多種方式 (ADX) 匯入資料以Azure Data Explorer

ADX 接受的攝取方法基於不同的成分:

  • 適用於不同語言的 SDK,例如 .NET、Go、Python、Java、NodeJS 和 API。
  • 管理管線,例如 Event Grid 或 Storage Blob Event Hubs,以及 Azure Data Factory。
  • 連接器或外掛,如 Logstash、Kafka、Power Automate 和 Apache Spark。

檢視 LightIngestLogstash,這兩種方法更適合資料遷移的使用情境。

LightIngest

ADX 專為歷史資料遷移的使用情境開發了 LightIngest 工具 。 你可以用 LightIngest 從本地檔案系統或 Azure Blob 儲存體複製資料到 ADX。

以下是 LightIngest 的一些主要優點與功能:

  • 由於擷取時間沒有時間限制,LightIngest 在想匯入大量資料時最有用。
  • LightIngest 很適合當你想查詢紀錄的建立時間,而不是資料被輸入的時間時。
  • LightIngest 不需要處理複雜的大小,因為這個工具本身不會執行實際的複製。 LightIngest 會通知 ADX 需要複製的 blob,然後 ADX 複製資料。

如果你選擇 LightIngest,請參考這些建議和最佳實務。

  • 為了加快遷移並降低成本,請擴大 ADX 叢集規模,創造更多可供擷取的節點。 遷徙結束後再縮小體型。
  • 為了在將資料匯入 ADX 後查詢更高效,請確保複製的資料使用原始事件的時間戳記。 資料不應該使用從資料複製到 ADX 的時間戳記。 你將時間戳記作為 CreationTime 屬性的一部分,作為檔案名稱路徑提供給 LightIngest。
  • 如果你的路徑或檔名沒有包含時間戳,你仍然可以指示 ADX 用 分割策略來組織資料。

Logstash

Logstash 是一個開放原始碼、伺服器端的資料處理流程,能同時從多個來源匯入資料,轉換資料後再傳送到你喜愛的「儲存庫」。 學習如何從 Logstash 匯入資料到 Azure Data Explorer。 Logstash 可在 Windows、Linux 和 macOS 機器上運行。

為了優化效能,請根據每秒事件 數設定 Logstash 的階層大小 。 我們建議盡可能使用 LightIngest ,因為 LightIngest 依賴 ADX 叢集運算來執行複製。

Azure Blob 儲存體

你可以用多種方式將資料匯入 Azure Blob 儲存體。

檢視Azure Data Factory (ADF) 與 Azure Synapse 方法,這些方法更適合資料遷移的使用情境。

Azure Data Factory or Azure Synapse

要在 ADF) 或 Synapse 管線中使用Azure Data Factory (複製活動:

  1. 建立並配置自架整合執行時。 此元件負責從本地主機複製資料。
  2. 為原始資料儲存 (檔案 系統 與匯入資料儲存區 的 blob 儲存建立連結服務。
  3. 要複製資料,請使用 複製資料工具。 或者,你也可以使用像 PowerShell、Azure 入口網站、.NET SDK 等方法。

AzCopy

AzCopy 是一個簡單的命令列工具,可將檔案複製到或從儲存帳號之間。 AzCopy 支援 Windows、Linux 及 macOS。 學習如何使用 AzCopy 將本地資料複製到 Azure Blob 儲存

您也可以使用以下選項來複製資料:

Azure 資料箱

在來源 SIEM 與 Azure 連線不良的情況下,使用本節介紹的工具擷取資料可能會很慢,甚至無法完成。 為了解決這種情況,你可以使用 Azure Data Box 將資料從客戶的資料中心本地複製到設備,然後再將該設備運送到 Azure 資料中心。 雖然 Azure Data Box 不能取代 AzCopy 或 LightIngest,但你可以利用這個工具加速客戶資料中心與 Azure 之間的資料傳輸。

Azure Data Box 提供三種不同的 SKU,視遷移資料量而定:

完成遷移後,資料會在你其中一個 Azure 訂閱的儲存帳戶中取得。 接著你可以使用 AzCopyLightIngestADF 從儲存帳號擷取資料。

SIEM 資料遷移加速器

除了選擇攝取工具外,團隊還需投入時間建立基礎環境。 為了簡化這個流程,你可以使用 SIEM 資料遷移加速器,它能自動化以下任務:

  • 部署 Windows 虛擬機,用於將日誌從來源轉移到目標平台
  • 下載並解壓以下工具至虛擬機桌面:
  • 部署將承載你歷史日誌的目標平台:
    • Azure 儲存帳號 (Azure Blob 儲存體)
    • Azure Data Explorer叢集與資料庫
    • Azure 監控日誌工作區 (基本日誌;啟用時啟用Microsoft Sentinel)

使用 SIEM 資料遷移加速器:

  1. SIEM 資料遷移加速器頁面,點擊頁面底部的「部署到 Azure」,並進行認證。
  2. 選擇 基礎,選擇你的資源群組和地點,然後選擇 下一步
  3. 選擇 遷移虛擬機,並執行以下操作:
    • 輸入虛擬機名稱、使用者名稱和密碼。
    • 選擇現有的 vNet,或為虛擬機連線建立新的 vNet。
    • 選擇虛擬機器大小。
  4. 選擇 目標平台 ,並執行以下其中一項:
    • 跳過這個步驟。
    • 提供 ADX 叢集名稱與資料庫名稱、SKU 及節點數量。
    • 對於 Azure Blob 儲存體帳號,請選擇一個現有帳號。 如果你沒有帳號,請提供新的帳號名稱、類型和冗餘。
    • 對於 Azure Monitor 日誌,請輸入新工作區名稱。

後續步驟

在本文中,你學會了如何選擇一個工具,將資料匯入目標平台。