SynapseML 中的 LightGBM 概觀
LightGBM 是一種開放原始碼、分散式、高效能漸層提升 (GBDT、GBRT、GBM 或 MART) 架構。 此架構專門建立高品質且已啟用 GPU 的決策樹演算法,以進行排名、分類,以及許多其他機器學習工作。 LightGBM 是 Microsoft 的 DMTK 專案的一部分。
LightGBM 的優點
- 可組合性:LightGBM 模型可以併入現有的 SparkML 管線,並用於批次、串流和提供工作負載。
- 效能:Spark 上的 LightGBM 比 Higgs 資料集上的 SparkML 快 10-30%,且 AUC 增加 15%。 平行實驗已確認 LightGBM 可以使用多部機器在特定設定中訓練,進而實現線性加速。
- 功能:LightGBM 提供各種不同的可調整參數,可用來自訂其決策樹系統。 Spark 上的 LightGBM 還會支援新的問題類型,例如分位數迴歸。
- 跨平台:Spark 上的 LightGBM 可在 Spark、PySpark 和 SparklyR 上取得。
LightGBM 使用方式
- LightGBMClassifier:用於建置分類模型。 例如,若要預測公司是否破產,我們可以使用
LightGBMClassifier
建置二元分類模型。 - LightGBMRegressor:用於建置迴歸模型。 例如,若要預測房價,我們可以使用
LightGBMRegressor
建置迴歸模型。 - LightGBMRanker:用於建置排名模型。 例如,若要預測網站搜尋結果的相關性,我們可以使用
LightGBMRanker
建置排名模型。