資料儲存體
注意
時間序列深入解析服務將於 2024 年 7 月 7 日淘汰。 請考慮儘快將現有的環境移轉至替代解決方案。 如需淘汰和移轉的詳細資訊,請造訪我們的文件。
本文說明 Azure 時間序列深入解析 Gen2 中的數據記憶體。 其涵蓋暖和冷、數據可用性和最佳做法。
佈建
當您建立 Azure 時間序列深入解析 Gen2 環境時,您有下列選項:
- 冷資料記憶體:
- 在您為環境選擇的訂用帳戶和區域中,建立新的 Azure 儲存體 資源。
- 附加預先存在的 Azure 儲存體 帳戶。 此選項只能透過從 Azure Resource Manager 範本進行部署,而且無法在 Azure 入口網站 中看到。
- 暖數據記憶體:
- 暖存放區是選擇性的,可以在布建期間或之後啟用或停用。 如果您決定稍後啟用暖存放區,而且冷存放區中已經有數據,請檢閱 下一 節以瞭解預期的行為。 暖存放區數據保留時間可以設定為 7 到 31 天,也可以視需要進行調整。
擷取事件時,它會在暖存放區中編製索引(如果已啟用)和冷存放區。
警告
身為冷存放區數據所在之 Azure Blob 記憶體帳戶的擁有者,您可以完整存取帳戶中的所有數據。 此存取權包括寫入和刪除許可權。 請勿編輯或刪除 Azure 時間序列深入解析 Gen2 寫入的數據,因為這可能會導致數據遺失。
資料可用性
Azure 時間序列深入解析 Gen2 資料分割和索引數據,以獲得最佳查詢效能。 數據會在編製索引之後,從暖存放區(如果已啟用)和冷存放區查詢。 正在擷取和每個分割區輸送量速率的數據量可能會影響可用性。 檢閱事件來源 輸送量限制 和 最佳做法 ,以獲得最佳效能。 您也可以設定延遲 警示 ,以在處理數據時遇到問題時收到通知。
重要
在透過時間序列查詢 API 取得 資料之前,您可能會遇到最多 60 秒的時間。 如果您遇到超過 60 秒的重大延遲,請透過 Azure 入口網站 提交支援票證。
當直接存取 Azure 時間序列深入解析 Gen2 外部的 Parquet 檔案時,您最多可能需要 5 分鐘的時間才能使用數據。 如需詳細資訊, 請參閱 Parquet 檔格式 一節。
溫存放區
暖存放區中的數據只能透過時間序列查詢 API、Azure 時間序列深入解析 TSI 總管或 Power BI 連接器來使用。 暖存放區查詢是免費的,而且沒有配額,但有 30 個並行要求的限制。
暖存儲行為
啟用時,不論事件時間戳為何,串流至您環境的所有數據都會路由傳送至您的暖存放區。 請注意,串流擷取管線是針對近乎即時的串流和內嵌歷程記錄事件而建置。
保留期間是根據事件在暖存放區中編製索引,而不是事件時間戳來計算。 這表示即使事件時間戳是未來,在保留期間過後,仍無法在暖存放區中使用數據。
- 範例:具有 10 天天氣預報的事件會內嵌並在設定為 7 天保留期間的暖記憶體容器中編製索引。 七天后,在暖存放區中無法再存取預測,但可以從冷中查詢。
如果您在現有的環境中啟用暖存放區,且該環境已經有最近在冷記憶體中編製索引的數據,請注意,您的暖存放區將不會重新填入此數據。
如果您剛啟用暖存放區,而且在檔案總管中檢視最近數據時發生問題,您可以暫時關閉暖存放區查詢:
冷存放區
本節說明與 Azure 時間序列深入解析 Gen2 相關的 Azure 儲存體 詳細數據。
如需 Azure Blob 記憶體的完整描述,請閱讀 記憶體 Blob 簡介。
您的冷記憶體帳戶
Azure 時間序列深入解析 Gen2 會保留您 Azure 儲存體 帳戶中每個事件的兩個複本。 一個複本會儲存藉由擷取時間排序的事件,一律允許以時間順序存取事件。 一段時間后,Azure 時間序列深入解析 Gen2 也會建立重新分割的數據複本,以針對高效能查詢進行優化。
所有數據都會無限期地儲存在 Azure 儲存體 帳戶中。
警告
請勿限制公用因特網存取時間序列深入解析所使用的記憶體帳戶,否則必要的連線將會中斷。
寫入和編輯 Blob
若要確保查詢效能和數據可用性,請勿編輯或刪除任何 Azure 時間序列深入解析 Gen2 建立的 Blob。
存取冷存放區數據
除了從 Azure 時間序列深入解析 Explorer 和時間序列查詢 API 存取您的數據之外,您也可以直接從儲存在冷存放區中的 Parquet 檔案存取您的數據。 例如,您可以在 Jupyter 筆記本中讀取、轉換和清理數據,然後使用它,在相同的 Spark 工作流程中將 Azure 機器學習 模型定型。
若要直接從 Azure 儲存體 帳戶存取數據,您需要用來儲存 Azure 時間序列深入解析 Gen2 資料的帳戶讀取許可權。 然後,您可以根據 Parquet 檔案的建立時間讀取選取的數據,該檔案位於 PT=Time
Parquet 檔格式一節中所述的資料夾。 如需啟用記憶體帳戶讀取許可權的詳細資訊,請參閱 管理記憶體帳戶資源的存取權。
資料刪除
請勿刪除您的 Azure 時間序列深入解析 Gen2 檔案。 僅從 Azure 時間序列深入解析 Gen2 內管理相關數據。
Parquet 檔案格式和資料夾結構
Parquet 是開放原始碼單欄檔格式,專為有效率的儲存和效能而設計。 Azure 時間序列深入解析 Gen2 會使用 Parquet 大規模啟用時間序列標識碼型查詢效能。
如需 Parquet 檔類型的詳細資訊,請參閱 Parquet 檔。
Azure 時間序列深入解析 Gen2 會儲存資料的複本,如下所示:
資料夾
PT=Time
會藉由擷取時間進行分割,並依抵達順序來儲存數據。 此數據會隨著時間保留,而且您可以從 Azure 時間序列深入解析 Gen2 外部直接存取數據,例如從 Spark 筆記本存取。 時間戳<YYYYMMDDHHMMSSfff>
會對應至數據的擷取時間。<MinEventTimeStamp>
和<MaxEventTimeStamp>
會對應至檔案中包含的事件時間戳範圍。 路徑與檔案名格式為:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
PT=Live
和PT=Tsid
資料夾包含資料的第二個複本,針對大規模時間序列查詢效能重新分割。 此數據會隨著時間優化,而且不是靜態的。 在重新分割期間,某些事件可能會存在於多個 Blob 中,而且 Blob 名稱可能會變更。 這些資料夾由 Azure 時間序列深入解析 Gen2 使用,不應直接存取;您應該只PT=Time
用於該用途。
注意
PT=Time
2021 年 6 月之前資料夾中的數據可能具有沒有事件時間範圍的檔名格式:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
。 內部檔案格式相同,而且具有這兩種命名配置的檔案都可以一起使用。
<YYYY>
對應至四位數年份表示法。<MM>
對應至兩位數月份表示法。<YYYYMMDDHHMMSSfff>
時間戳的格式會對應到四位數年份(YYYY
)、兩位數月份()、兩位數日(MM
)、兩位數小時(DD
HH
)、兩位數分鐘()、兩位數秒(MM
)、二位數秒(SS
)和三位數毫秒(fff
)。
Azure 時間序列深入解析 Gen2 事件會對應至 Parquet 檔案內容,如下所示:
- 每個事件都會對應至單一數據列。
- 每個數據列都包含 具有事件時間戳的時間戳 數據行。 時間戳屬性絕不為 Null。 如果未在事件來源中指定時間戳屬性, 則會預設為事件加入佇列的時間 。 預存的時間戳一律為UTC。
- 每個資料列都包含建立 Azure 時間序列深入解析 Gen2 環境時所定義的時間序列識別元 (TSID) 資料行。 TSID 屬性名稱包含
_string
後綴。 - 以遙測數據傳送的所有其他屬性都會對應至以 (布林值)、(時間戳)、
_long
(long)、_datetime
(double)、_double
(string)_string
或_dynamic
(dynamic) 結尾_bool
的數據行名稱,視屬性類型而定。 如需詳細資訊,請參閱 支持的數據類型。 - 此對應架構適用於檔格式的第一個版本,參考為 V=1,並儲存在相同名稱的基底資料夾中。 隨著這項功能的發展,此對應架構可能會變更,且參考名稱會遞增。
下一步
閱讀數據模型。
規劃您的 Azure 時間序列深入解析 Gen2 環境。