預測模型效能
在每次定型之後,AI Builder 會使用測試資料集來評估新模型的品質和適合度。 模型的摘要頁面會顯示模型定型結果, 這些結果會表示為效能等級 A、B、C 或 D。
測量效能
效能等級
每次定型後,AI Builder 會藉由顯示等級來協助評估模型的正確性。 必須根據特別需求和情況來決定您是否已準備好發佈模型。 AI Builder 提供下列效能等級,以供進行判斷。
如何解讀每個等級
等級 | 指引 |
---|---|
A | 雖然模型可能還有改善空間,但這是所能取得的最佳等級。 |
B | 模型在多數情況下都是正確的。 是否能加以改善? 這取決於您的獨特情況、資料及需求。 |
C | 模型的表現比隨機猜測稍微好一點。 模型可能適用於某些應用程式,但在大多數情況下,您仍需要繼續調整並改善模型。 |
D | 有點問題。 您的模型表現得比我們對隨機猜測預期的表現還要差 (擬合不足模型)。 或者,其執行結果非常好 (達到或接近 100%),以至於您可能有一個與結果直接相關的資料行 (overfit 模型)。 |
準確度範圍依您的資料而有所不同
如果您要預測 2 種以上的結果,與上述等級相對應的實際正確率可能會依歷史資料的資料分佈而有所不同。 此差異說明相對於基準率的改善會在您移動該時變更。
假設模型可預測出貨是否會準時抵達。 如果過去的準時率為 80%,則 92 的效能分數會對應到 B級。 然而,如果過去的準時率僅為 50%,則 92 會對應到 A級。 這是因為 92 的改善遠高於 50%(相較於80%),且您會期望隨機猜測能夠接近這些百分比。
二進位歷史資料範例
這個範例顯示當歷史資料的二元預測包含不同準時率時,每個等級的準確度範圍。
等級 | 過往 25% 準時率的準確度範圍 | 過往 50% 準時率的準確度範圍 | 過往 80% 準時率的準確度範圍 | 過往 95% 準時率的準確度範圍 |
---|---|---|---|---|
A | 92.5 – <99.3% | 90 – 98% | 93 – <99% | 98.1 – <99.8% |
B | 81.3 – <92.5% | 75 – <90% | 84 – <93% | 95.3 – <98.1% |
C | 66.3 – <81.3% | 55 – <75% | 71 – <84% | 91.5 – <95.3% |
D | <66.3% 或 ≥99.3% | <55% 或 ≥ 98% | <71% 或 ≥ 99% | <91.5%或 ≥99.8% |
多個結果歷史資料範例
當您預測超過 2 種結果時,每個等級對應的準確率也會不同。 假設您的模型預測兩個以上的交貨選項:提前、準時或延遲。
當您的歷史準時率變更時,每個等級的準確度範圍都會變更。
等級 | 提前 (33.3%) | 提前 (20%) | 提前 (10%) |
---|---|---|---|
準時 (33.3%) | 準時 (40%) | 準時 (80%) | |
延遲 (33.4%) | 延遲 (40%) | 延遲 (10%) | |
A | 86.7 – <98.7% | 87.2 – <98.7% | 93.2 – <99.3% |
B | 66.7 – <86.7% | 68.0 – <87.2% | 83.0 – <93.2% |
C | 40.0 – <66.7% | 42.4 – <68.0% | 69.4 – <83.0% |
D | 33.3 – <40.0% | 36.0 – <42.4% | 66.0 – <69.4% |
數值預測範例
如果是數字預測,AI Builder 會使用 R 平方統計量值來計算模型的準確度等級。 下表顯與每個等級對應的分數:
等級 | R 平方值 |
---|---|
A | 85% - <99% |
B | 60% - <85% |
C | 10% - <60% |
D | ≥99% 或 < 10% |
效能詳細資料
如需定型詳細資料,請在模型的等級方塊上選取查看詳細資料。 在效能索引標籤上,可用的效能資訊如下:
Note
如需有關此針對區域規劃的其他功能資訊,請參閱發行計畫。
- 準確度分數
- R 平方值
準確度分數
AI Builder 會根據測試資料集的預測結果來計算模型的正確性分數。 在定型之前,AI Builder 會將資料集分成不同的定型資料和測試資料集。 在定型之後,AI Builder 會將 AI 模型套用至測試資料集,然後計算正確性分數。 例如:如果測試資料集有 200 列,且 AI Builder 正確預測了其中的 192 列,則 AI Builder 顯示的準確率為 96%。
如需詳細資訊,請參閱評估您的模型。
R 平方值
如果是數字預測,則 AI Builder 在每次定型後會計算一個 R 平方值分數。 此分數衡量模型的「適合度」,可用來判斷模型的效能等級。
假設您正在預測訂單履行、出貨和交貨的天數。 模型會預測一組數字。 R 平方值根據的是預測值與實際值之間在定型資料中的距離。 這是以介於 0 到 100% 之間的數字來表示;值越高,表示預測值越接近實際值。 一般來說,較高的分數表示模型執行效能較佳。 不過,完美或近乎完美的分數 (擬合過度模型) 通常表示定型資料有問題。
在摘要索引標籤上,有下列效能資訊可用:
- 定型日期
- 資料來源
- 歷史結果
- 用來進行預測的資料表清單。
改善預測模型效能
在定型並評估模型之後,您就可以開始調校模型,以改善其效能。 以下是您可以嘗試改善模型預測能力的一些方法。
檢閱錯誤和問題
- 如果完成定型後發生任何錯誤,請進行修正並重新定型模型。
- 如果沒有任何錯誤,請檢查定型詳細資料。 盡可能地嘗試解決問題,然後再重新定型模型。
檢閱重要影響因素
在每次定型之後,[模型詳細資料] 頁面上會出現最重要的影響因素清單。 定型中所使用的每個資料行都有分數來代表其對定型的影響。 這些分數合計起來等於 100%。
這有助於顯示模型是否如預期進行定型。 例如,如果您要預測線上購物者的意圖,並且希望「年齡」、「產品」為最具影響力的資料行,則您應該要在模型詳細資料頁面的最具影響力資料行清單中看到它。 如果沒有,則可能表示定型結果與預期不相同。 在此情況下,您可以取消選取不相關或造成誤導的資料行,然後重新定型模型或檢查定型問題,以查看進一步的詳細資料。
新增更多資料
定型資料的最低需求為 50 個資料列,但這並不表示 50 個資料列能夠定型高度預測模型。 請嘗試提供 1000 個或更多資料列、正確地加上標籤,並在選項之間進行實際散發。
檢查您的資料分佈
例如,如果您使用是或否兩個選項標籤,而大部分的資料列在此資料行中只有是,則您模型很難從這項資料中學習。 嘗試在資料中平均分配選項,使這些選項大致反映您期望看到的選項分佈。 例如,如果要查看 cat_owner 和 dog_owner 的資料行,則請在接近百分之 50的某處使用資料散發。 如果要查看詐騙交易,請使用較不平衡的分佈,例如 95% 到 5%。 如果不知道會產生什麼結果,請留意此類型資訊的業界標準。
新增更多資料行
例如,如果您想要預測哪些客戶較有可能再度光顧並購買產品。 您可以新增更多資料行,讓定型資料更豐富。 例如:
- 他們如何為產品評分?
- 他們使用產品的程度有多高?
- 他們是現有的客戶嗎?
將選取的資料行範圍縮小為相關資訊
您可能擁有已正確標籤的大量定型資料,而其中包含許多資料行。 但為什麼模型仍然表現不佳? 其原因可能為您選取的資料行會導致不必要偏差。 請確定您選取的所有資料行都與所要預測內容有相關的影響, 取消選取不相關或會造成誤導的資料行。
驗證資料
- 請確定資料行沒有高比率的遺漏值 (大於百分之99)。 依預設資料填入遺漏值,或從模型定型中移除資料行。
- 如果某個資料行與某個預測結果具有高度關聯性,請從模型定型中移除該資料行。