共用方式為


為什麼資料管線?

Azure DevOps Services

您可以使用資料管線來:

  • 從各種資料來源擷取資料
  • 處理和轉換資料
  • 將已處理的資料儲存到暫存位置,供其他人取用

資料管線概觀

企業中的資料管線可以隨著多個來源系統和支援各種下游應用程式而演進成更複雜的案例。

資料管線提供:

  • 一致性:資料管線會將資料轉換成一致格式供使用者使用
  • 減少錯誤:自動化資料管線可在運算元據時消除人為錯誤
  • 效率:資料專業人員可節省資料處理轉換所花費的時間。 節省時間可讓您專注于其核心工作功能 - 取得資料的深入解析,並協助企業做出更好的決策

什麼是 CI/CD?

持續整合和持續傳遞 (CI/CD) 是一種軟體發展方法,所有開發人員都會在程式碼的共用存放庫上共同運作,而且隨著變更的進行,有自動建置程式可偵測程式碼問題。 結果是更快速的開發生命週期和較低的錯誤率。

什麼是 CI/CD 資料管線,為何對資料科學很重要?

機器學習模型的建置類似于傳統的軟體發展,因此資料科學家需要撰寫程式碼來定型和評分機器學習模型。

不同于產品以程式碼為基礎的傳統軟體發展,資料科學機器學習模型是以程式碼 (演算法、超參數) ,以及用來定型模型的資料為基礎。 這就是為什麼大部分的資料科學家會告訴您,他們花費 80% 的時間進行資料準備、清除和特徵工程。

為了進一步使問題更加複雜 – 為了確保機器學習模型的品質,會使用 A/B 測試等技術。 使用 A/B 測試時,可能會同時使用多個機器學習模型。 通常會有一個控制模型和一或多個處理模型進行比較,以便比較和維護模型效能。 讓多個模型為機器學習模型的 CI/CD 新增另一層複雜度。

擁有 CI/CD 資料管線對於資料科學小組而言非常重要,以及時且品質的方式將機器學習模型傳遞給企業。

下一步