使用超參數改善模型

已完成

具有小型資料集的簡單模型往往可以在單一步階內調整好,而較大的資料集和更複雜的模型則必須不斷使用模型與定型資料,並比較輸出與預期的標籤才能調整完成。 如果預測夠精確,就表示模型已定型完成。 如果不夠精確,我們會稍微調整模型,然後重新執行迴圈。

超參數是會在這些迴圈進行期間變更模型調整方式的值。 例如,學習速率就是一種超參數,可設定每個定型週期期間的模型調整程度。 較高的學習速率表示模型可以更快完成定型,但如果太高,則調整可能會太大,而讓模型永遠無法「微調」且無法達到最佳表現。

前置處理資料

前置處理是指在將資料傳遞至模型之前,對資料所做的變更。 我們先前已看過,前置處理可能牽涉到清除您的資料集。 雖然這很重要,但前置處理也可能包括變更您的資料格式,讓其更方便模型使用。 例如,以「紅色」、「橙色」、「黃色」、「黃綠色」和「綠色」描述的資料,如果轉換成對電腦來說更為原生的格式 (例如用數字代表紅色的數量和綠色的數量),可能會更合適。

縮放特徵

最常見的前置處理步驟是縮放特徵,使其落在 0 與 1 之間。 例如,自行車的重量和使用者騎乘自行車的距離可能是差異極大的兩個數字,但藉由將這兩個數字縮放為介於 0 與 1 之間,就能讓模型更有效率地從資料中學習。

使用類別作為特徵

在機器學習中,您也可以使用類別功能,例如「自行車」、「滑板」或「汽車」。這些功能以 一個熱向量中的 0 或 1 個值表示;針對每個可能值具有 0 或 1 的向量。 例如,自行車、滑板和汽車可能分別是 (1,0,0)、(0,1,0) 和 (0,0,1)。