Share via


了解資料集

機器學習模型向定型資料中擷取的歷史決策和動作「學習」。 因此,在真實情節中的表現深受定型資料所影響。 當資料集的特徵分佈扭曲時,可能導致模型不正確預測屬於代表性不足群組的資料點,或根據不適當的計量來最佳化。

例如,當模型定型 AI 系統以預測房屋價格時,訓練集卻代表 75% 的新成屋,且其價格低於中位數。 這樣一來,就難以精確找出較貴的中古屋。 修正方法是將較舊且昂貴的房屋加入定型資料,並擴大特徵以納入中古屋價值的見解。 這種資料增強方式即可改善結果。

負責任 AI 儀表板的資料分析元件可根據預測和實際結果、誤差群組及具體特徵,協助將資料集視覺化。 這有助於找出代表性過度與不足的問題,並了解資料如何群集在資料集。 資料視覺效果由彙總圖或個別資料點組成。

使用資料分析的時機

當您需要進行下列作業時,請使用資料分析:

  • 選取各種篩選條件將資料切割成不同的維度 (也稱為世代),以探索資料集統計資料。
  • 了解資料集在不同世代和特徵群之間的分佈。
  • 判斷資料集的分佈是否影響您對公平性、錯誤分析和因果關係 (衍生自其他儀表板元件) 的調查結果。
  • 決定在哪些方面收集更多資料,以減輕由代表性問題、標籤雜訊、特徵雜訊、標籤偏差等類似因素所引起的誤差。

下一步