教學課程:在 Power BI 中建置機器學習模型
在本教學課程中,您會使用 自動化機器學習 在 Power BI 中建立和套用二進位預測模型。 您可以建立 Power BI 資料流程,並使用您在資料流程中定義的實體,直接在 Power BI 中定型和驗證機器學習模型。 接著,您會使用該模型來評分新資料並產生預測。
首先,您會建立二進位預測機器學習模型,根據線上購物者的一組線上會話屬性來預測線上購物者的購買意圖。 您將使用此練習的基準機器學習資料集。 定型模型之後,Power BI 會自動產生驗證報告來說明模型結果。 您接著可以檢視驗證報表,並將模型套用到您的資料以進行評分。
本教學課程包含下列步驟:
- 使用輸入資料建立資料流程。
- 建立和定型機器學習模型。
- 檢閱模型驗證報告。
- 將模型套用至資料流程實體。
- 在 Power BI 報表中使用模型的評分輸出。
使用輸入資料建立資料流程
依照下列步驟建立具有輸入資料的資料流程。
取得資料
建立資料流程的第一個步驟,是將您的資料來源準備就緒。 在此情況下,您會使用來自一組線上會話的機器學習資料集,其中一些會在購買時產生作用。 資料集包含一組關於這些會話的屬性,可用來定型模型。
您可以從 UC Irvine 網站或下載 online_shoppers_intention.csv來下載資料集。 在本教學課程稍後,您會藉由指定資料集的 URL 來連線到資料集。
建立資料表
若要在資料流程中建立實體,請登入Power BI 服務並流覽至工作區。
如果您沒有工作區,請在 Power BI 左側流覽窗格中選取 [ 工作區 ],然後選取 [ 建立工作區],以建立工作區。 在 [ 建立工作區] 面板中,輸入工作區名稱,然後選取 [ 儲存]。
選取新工作區頂端的 [ 新增 ],然後選取 [ 資料流程]。
選取[新增資料表] 以在瀏覽器中啟動Power Query編輯器。
在 [ 選擇資料來源] 畫面上,選取 [文字/CSV ] 作為資料來源。
在 [連接到資料來源] 頁面上,將下列連結貼到[檔案路徑或 URL] 方塊中online_shoppers_intention.csv檔案,然後選取 [下一步]。
https://raw.githubusercontent.com/santoshc1/PowerBI-AI-samples/master/Tutorial_AutomatedML/online_shoppers_intention.csv
Power Query 編輯器會從 CSV 檔案中顯示資料的預覽。 若要在載入資料之前變更資料,請選取 [轉換資料]。
Power Query會自動推斷資料行的資料類型。 您可以選取資料行標頭頂端的屬性類型圖示來變更資料類型。 將 Revenue 資料行的類型變更為 True/False。
您可以變更右窗格中 [ 名稱 ] 方塊中的值,將查詢重新命名為較易記的名稱。 將查詢名稱變更為 線上訪客。
選取 [儲存 & 關閉],然後在對話方塊中提供資料流程的名稱,然後選取 [ 儲存]。
建立及定型機器學習模型
若要新增機器學習模型:
針對包含定型資料和標籤資訊的資料表,選取 [動作] 清單中的 [套用 ML 模型] 圖示,然後選取 [新增機器學習模型]。
建立機器學習模型的第一個步驟是識別歷程記錄資料,包括您想要預測的結果欄位。 模型是透過從此資料學習所建立。 在此情況下,您想要預測訪客是否要進行購買。 您想要預測的結果位於 [收益 ] 欄位中。 選取 [收益 ] 作為 [結果] 資料行 值,然後選取 [ 下一步]。
接下來,您可以選取要建立的機器學習模型類型。 Power BI 會分析您所識別結果欄位中的值,並建議其可建立的機器學習模型類型來預測該欄位。
在此情況下,因為您想要預測訪客是否要購買的二進位結果,所以 Power BI 建議 進行二進位預測。 因為您有興趣預測要購買的訪客,請在[選擇目標結果] 下選取[true]。 您也可以提供不同的標籤,以用於自動產生的報表中結果,以摘要模型驗證結果。 然後選取 [下一步]。
Power BI 會初步掃描資料的範例,並建議可能會產生更精確的預測的輸入。 如果 Power BI 不建議資料行,它會說明為何不在資料行旁邊。 您可以選取或取消選取資料行名稱旁的核取方塊,將選取範圍變更為只包含您想要模型研究的欄位。 選取 [下一步] ,接受輸入。
在最後一個步驟中,將模型命名為 購買意圖預測,然後選擇要在定型中花費的時間量。 您可以減少定型時間以查看快速結果,或增加取得最佳模型的時間。 然後選取 [儲存並定型] 來開始定型模型。
如果您收到與 資料來源找不到認證類似的錯誤,您需要更新認證,讓 Power BI 可以為資料評分。 若要更新您的認證,請在標題列中選取[更多選項...],然後選取 [設定設定> ]。
選取 [資料流程] 下的 資料流程,展開 [資料來源認證],然後選取 [ 編輯認證]。
追蹤訓練狀態
定型程式從取樣和正規化歷程記錄資料開始,並將資料集分割成兩個新的實體:購買意圖預測訓練資料和購買意圖預測測試資料。
根據資料集的大小,定型程式可能需要幾分鐘到您選取的訓練時間。 您可以透過資料流程的狀態來確認模型正在定型或正在進行驗證。 狀態會顯示為工作區 [ 資料集 + 資料流程 ] 索引標籤中的資料重新整理進行中。
您可以在資料流程的 [機器學習模型 ] 索引標籤中看到模型。 狀態 指出模型是否已排入佇列進行定型、正在定型中,或已定型。 模型定型完成後,資料流程會顯示更新 的 [上次定 型時間] 和 [ 已定型] 的狀態。
檢閱模型驗證報表
若要檢閱模型驗證報告,請在 [機器學習模型] 索引標籤中,選取 [動作] 底下的 [檢視訓練報表] 圖示。 此報表會描述您機器學習模型可能執行的方式。
在報表的 [ 模型效能] 頁面中,選取 [ 查看頂端預測器 ] 以檢視您模型的頂端預測器。 您可以選取其中一個預測指標來查看結果分佈與該預測指標建立關聯的方式。
您可以使用[模型效能] 頁面上的 [機率臨界值交叉分析篩選器] 來檢查模型精確度和召回率對模型的影響。
報表的其他頁面會描述模型的統計效能計量。
此報表也包含 [ 定型詳細 資料] 頁面,描述 反復專案執行、如何從輸入擷取特徵,以及 所使用最終模型的超參數。
將模型套用到資料流程實體
選取報表頂端的 [套用模型] 按鈕來叫用此模型。 在 [ 套用 ] 對話方塊中,您可以指定要套用模型之來源資料的目標實體。 然後選取 [ 儲存並套用]。
套用模型會建立兩個新的資料表,其後綴會擴充 < model_name >和擴充 < model_name > 說明。 在此情況下,將模型套用至 線上訪客 資料表會建立:
- 線上訪客擴充了購買意圖預測,其中包含模型的預測輸出。
- 線上訪客擴充了購買意圖預測說明,其中包含預測的最上層記錄特定影響因素。
套用二進位預測模型會新增四個數據行: Result、 PredictionScore、 PredictionExplanation和 ExplanationIndex,每個資料行都有 購買意圖預測 前置詞。
資料流程重新整理完成後,您可以選取 線上訪客擴充的購買意圖預測 資料表來檢視結果。
您也可以直接從資料流程中的Power Query 編輯器叫用工作區中的任何自動化機器學習模型。 若要存取自動化機器學習模型,請針對您想要從自動化機器學習模型擴充深入解析的資料表選取 [編輯 ]。
在Power Query 編輯器中,選取功能區中的AI 深入解析。
在 [AI 深入解析] 畫面上,從流覽窗格選取 Power BI Machine Learning Models 資料夾。 此清單會顯示您有權作為Power Query函式存取的所有機器學習模型。 機器學習模型的輸入參數會自動對應為對應Power Query函式的參數。 只有在參數的名稱和資料類型相同時,才會發生自動參數對應。
若要叫用機器學習模型,您可以選取任何選取的模型資料行作為下拉式清單中的輸入。 您也可以藉由切換輸入行旁的資料行圖示,來指定要作為輸入的常數值。
選取 [套用 ] 以檢視機器學習模型輸出的預覽,作為資料表中的新資料行。 您也會在查詢的 套用步驟 下看到模型調用。
儲存資料流程之後,模型會在資料流程重新整理時自動叫用,以取得實體資料表中任何新的或更新的資料列。
在 Power BI 報表中使用模型的評分輸出
若要使用機器學習模型的評分輸出,您可以使用資料流程連接器從Power BI Desktop連線到資料流程。 您現在可以使用 線上訪客擴充的購買意圖預測 資料表,在 Power BI 報表中納入模型的預測。
限制
使用閘道與自動化機器學習有一些已知問題。 如果您需要使用閘道,最好先建立透過閘道匯入必要資料的資料流程。 然後建立另一個資料流程,參考第一個資料流程來建立或套用這些模型。
下一步
在本教學課程中,您已執行下列步驟,在 Power BI 中建立並套用二進位預測模型:
- 使用輸入資料建立資料流程。
- 已建立並定型機器學習模型。
- 已檢閱模型驗證報告。
- 將模型套用至資料流程實體。
- 瞭解如何在 Power BI 報表中使用模型的評分輸出。
如需 Power BI 中機器學習自動化的詳細資訊,請參閱 Power BI 中的自動化機器學習。