Share via


CSV 剖析器擷取概念

CSV (逗號分隔值) 檔案是逗號分隔文本檔,用來以數據表結構化格式儲存數據。

CSV 剖析器 DAG 可讓客戶根據自定義架構將數據載入 Microsoft Azure Data Manager for Energy 實例,也就是不符合 OSDU® 已知架構 (WKS) 的架構。 客戶必須先使用架構服務來建立及註冊自定義架構,才能載入數據。

CSV 剖析器 DAG 會實作 ELT (擷取載入和轉換) 方法來載入數據,也就是說,數據會先以 CSV 格式從來源系統擷取,並載入至適用於能源的 Azure Data Manager 實例。 然後可以使用對應服務將它轉換成 OSDU® 已知架構。

CSV 擷取有何用途?

CSV 剖析器 DAG 可讓客戶將 CSV 數據載入 Microsoft Azure Data Manager for Energy 實例。 它會剖析 CSV 檔案的每個數據列,並建立記憶體元數據記錄。 它會執行 schema validation 以確保 CSV 數據符合已註冊的自定義架構。 它會根據架構數據類型定義,自動對數據行執行 type coercionunique id它會結合數據中的來源、實體類型和Base64編碼字串,以串連自然索引鍵來產生CSV記錄的每個數據列。 unit conversion它會使用單位服務,將宣告的參考資訊框架轉換成適當的可保存參考來執行。 它會根據架構中存在的參考框架 (FoR) 資訊,針對空間感知數據行執行 CRS conversion 。 它會建立 relationships 元數據,如來源架構中所宣告。 最後,它會persists使用 儲存體 服務來記錄元數據。

CSV 剖析器擷取元件

CSV 剖析器 DAG 工作流程是由下列服務所組成:

  • 檔案服務 可協助管理 Azure Data Manager for Energy 實例中的檔案。 它可讓使用者從數據平臺安全地上傳、探索和下載檔案。
  • 架構服務 可協助管理 Azure Data Manager for Energy 實例中的架構。 它可讓用戶在數據平臺中建立、擷取和搜尋架構。
  • 儲存體 服務可協助儲存擷取至數據平臺之網域實體的元數據資訊。 它也會引發記憶體記錄變更事件,允許下游服務對擷取的元數據記錄執行作業。
  • 單位服務 有助於單位的管理和轉換
  • 工作流程服務 可協助管理 Azure Data Manager for Energy 實例中的工作流程。 它是 Airflow 協調流程引擎頂端的包裝函式服務。

CSV 擷取元件圖表

CSV 擷取元件圖表的螢幕快照。

CSV 剖析器擷取工作流程

若要執行 CSV 剖析器 DAG 工作流程,用戶必須具有有效的授權令牌和下列服務的適當存取權:搜尋、儲存體、架構、檔案服務、權利、法律及工作流程。

下列工作流程圖表說明 CSV 剖析器 DAG 工作流程: CSV 擷取順序圖表的螢幕快照。

若要執行 CSV 剖析器 DAG 工作流程,用戶必須先使用工作流程服務來建立和註冊架構。 建立架構之後,用戶接著會使用檔案服務將 CSV 檔案上傳至 Microsoft Azure Data Manager for Energy 實例,並建立檔案泛型類型的記憶體記錄。 然後,檔案服務會提供檔案標識碼給使用者,而該標識碼會在使用工作流程服務觸發 CSV 剖析器工作流程時使用。 工作流程服務會提供執行標識符,用戶可用來追蹤 CSV 剖析器工作流程執行的狀態。

OSDU® 是開放群組的商標。

下一步

前進至 CSV 剖析器教學課程,並瞭解如何執行 CSV 剖析器擷取