本文回答關於 Azure 數據總管擷取的常見問題。
佇列擷取和數據延遲
佇列擷取如何影響我的數據?
批處理管理員會根據擷取批處理原則中的 擷取設定來緩衝和批處理輸入數據。 擷取批處理原則會根據三個限制因素來設定批次限制,無論第一次達到哪一個:建立批次后經過的時間、累積的項目數(Blob)或批次大小總計。 默認批處理設定為 5 分鐘/1 GB/1,000 個 Blob,這表示在將範例數據排入佇列以擷取時,至少會有 5 分鐘的延遲。
我應該使用佇列或串流擷取?
佇列擷取已針對高擷取輸送量進行優化,而且是擷取慣用且效能最高的擷取類型。 相反地,串流擷取已針對低擷取延遲進行優化。 深入瞭解 已排入佇列與串流擷取。
我需要變更批處理原則嗎?
如果擷取批次處理原則的預設設定不符合您的需求,您可以嘗試降低批處理原則 time
。
請參閱 優化輸送量。
當您相應增加擷取時,也應該更新設定。
當您變更批處理原則設定時,最多可能需要 5 分鐘才會生效。
造成佇列擷取延遲的原因為何?
我可以在哪裡檢視佇列擷取延遲計量?
若要檢視佇列擷取延遲計量,請參閱 監視擷取延遲。 計量 Stage Latency
和 Discovery Latency
顯示擷取程式中的延遲,並顯示是否有很長的延遲。
如何縮短佇列擷取延遲?
批處理數據大小如何計算?
批處理原則數據大小會針對未壓縮的數據進行設定。 擷取壓縮數據時,會從擷取批處理參數、ZIP 檔案元數據或壓縮的檔案大小來計算未壓縮的數據大小。
擷取監視、計量和錯誤
如何監視擷取問題?
您可以使用計量監視擷取,以及設定和使用擷取診斷記錄來進行詳細的數據表層級監視、檢視詳細的擷取錯誤碼等等。 您可以選取要追蹤的特定計量、選擇要匯總結果的方式,以及建立要在儀錶板上檢視的計量圖表。 深入瞭解 串流計量 ,以及如何 監視佇列擷取。
我可以在哪裡檢視關於擷取的深入解析?
您可以使用入口網站的 Azure 監視器深入解析 來協助您瞭解 Azure 數據總管的執行方式,以及其使用方式。 深入解析檢視是以 可串流至Log Analytics工作區的計量 和 診斷記錄 為基礎。 使用 .dup-next-ingest 命令,將下一個擷取複製到記憶體容器,並檢閱擷取的詳細數據和元數據。
我在哪裡檢查擷取錯誤?
您可以使用擷取計量和診斷記錄來監視完整的擷取流程。
您可以使用計量或FailedIngestion
診斷記錄來監視IngestionResult
擷取失敗。
此命令 .show ingestion failures
會顯示與數據擷取管理命令相關聯的擷取失敗,不建議用於監視錯誤。
此命令 .dup-next-failed-ingest
會藉由將擷取檔案和元數據上傳至記憶體容器,提供下一個失敗擷取的相關信息。
這在檢查擷取流程時很有用,不過不建議用於穩定監視。
如果我發現許多重試錯誤,該怎麼辦?
包含RetryAttemptsExceeded
計量狀態的計量多次表示擷取超過週期性暫時性錯誤之後的重試嘗試限制或時間範圍限制。
如果此錯誤也出現在診斷記錄中,並顯示錯誤碼General_RetryAttemptsExceeded
和詳細數據「無法存取記憶體並取得 Blob 的資訊」,這表示高負載記憶體存取問題。
在事件方格擷取期間,Azure 數據總管會向記憶體帳戶要求 Blob 詳細數據。
當記憶體帳戶上的負載太高時,記憶體存取可能會失敗,而且無法擷取擷取所需的資訊。
如果嘗試傳遞定義的重試次數上限,Azure 數據總管會停止嘗試擷取失敗的 Blob。
若要防止載入問題,請使用進階記憶體帳戶,或將內嵌的數據分割在更多記憶體帳戶上。
若要探索相關的錯誤,請檢查 FailedIngestion
診斷記錄中是否有錯誤碼,以及是否有任何失敗 Blob 的路徑。
擷取歷程記錄數據
如何擷取大量的歷程記錄數據,並確保良好的效能?
若要有效率地擷取大量的歷程記錄數據,請使用 LightIngest。 如需詳細資訊,請參閱 內嵌歷程記錄數據。 若要改善許多小型檔案的效能,請調整 批處理原則、變更批處理條件和地址 延遲。 若要改善擷取極大型數據檔時的擷取效能,請使用 雲端式數據整合服務 Azure Data Factory (ADF)。
擷取無效的數據
擷取無效的數據時,會發生什麼事?
格式不正確的數據、無法剖析、太大或不符合架構,可能無法正確內嵌。 如需詳細資訊,請參閱 擷取無效的數據。
SDK 和連接器
如何使用 SDK 改善擷取?
透過 SDK 擷取時,您可以使用擷取 批處理原則設定來改善效能。 請嘗試以累加方式將數據表或資料庫批處理原則中內嵌的數據大小縮減為 250 MB。 檢查是否有改進。
如何微調 Kusto Kafka Sink 以取得更好的擷取效能?
Kafka 接收 使用者應該 藉由調整批處理時間、大小和專案編號,來調整連接器 以與 擷取批處理原則 搭配運作。