ML Studio (傳統) 模組中的機器學習模組
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
機器學習的一般工作流程包含許多階段:
識別要解決的問題和測量結果的度量。
尋找、清除和準備適當的資料。
找出最佳功能和工程新功能。
建立、評估和調整模型。
使用模型來產生預測、建議和其他結果。
本節中的模組提供適用于機器學習的最後階段的工具,您可以在其中將演算法套用至資料,以將模型定型。 在這些最後的階段中,您也會產生分數,然後評估模型的精確度和實用性。
依類別列出的機器學習工作清單
-
將您的資料提供給設定的模型,以便從模式中學習,以及建立可用於預測的統計資料。
-
使用定型的模型來建立預測。
-
測量定型模型的精確度,或比較多個模型。
如需此實驗性工作流程的詳細說明,請參閱 信用風險解決方案逐步解說。
必要條件
在您可以開始建立模型的有趣部分之前,通常需要進行許多準備工作。 本節提供機器學習 Studio (傳統) 中工具的連結,可協助您清理資料、改善輸入品質,以及防止執行階段錯誤。
資料探索和資料品質
確定您的資料是正確的資料類型、正確的數量,以及您所選擇之演算法的正確品質。 瞭解您擁有的資料量,以及散發的方式。 是否有極端值? 這些產生的結果為何,以及它們的意義為何? 是否有任何重複的記錄?
處理遺漏值
遺漏值可能對您的結果造成許多影響。 例如,幾乎所有的統計方法都捨棄遺漏值的案例。 根據預設,當遇到具有遺漏值的資料列時,機器學習會遵循這些規則:
如果用來培訓模型的資料有遺漏值,則略過任何有遺漏值的資料列。
如果在對模型評分時當做輸入使用的資料有遺漏值,則會使用遺漏值做為輸入,但會傳播 null。 這通常表示在結果中插入 null,而不是有效的預測。
在訓練模型之前,請務必檢查您的資料。 若要插補遺漏值或更正您的資料,請使用此模組:
選取功能並減少維度
機器學習 Studio (傳統) 可協助您在資料中進行流覽,以找出最有用的屬性。
使用 費雪線性判別分析 或以 篩選器為基礎的特徵選取 等工具來判斷哪些資料行具有最具預測性的能力。 這些工具也可以識別因數據洩漏而應移除的資料行。
從現有的資料建立或設計特徵。 將資料或群組資料正規化成 bin以建立新的資料群組,或在分析之前將數值的範圍標準化。
範例
如需機器學習服務的範例,請參閱 Azure AI 資源庫。
如需秘訣和一些一般資料 prepration 工作的逐步解說,請參閱 執行 Team Data 科學流程的逐步解說。