Menggunakan XGBoost di Azure Databricks

Artikel ini menyediakan contoh model pembelajaran mesin pelatihan menggunakan XGBoost di Azure Databricks. Runtime Databricks untuk Machine Learning menyertakan pustaka XGBoost untuk Python dan Scala. Anda dapat melatih model XGBoost pada mesin individual atau secara terdistribusi.

Melatih model XGBoost pada satu node

Anda dapat melatih model menggunakan xgboostpaket Python. Paket ini hanya mendukung beban kerja node tunggal. Untuk melatih alur PySpark ML dan memanfaatkan pelatihan terdistribusi, lihat Pelatihan terdistribusi model XGBoost.

Buku catatan Python XGBoost

Dapatkan buku catatan

Pelatihan terdistribusi model XGBoost

Untuk pelatihan terdistribusi model XGBoost, Databricks mencakup estimator PySpark berdasarkan xgboost paket. Dalam Databricks Runtime 16.4 LTS ML dan di bawahnya, Databricks juga menyertakan paket xgboost-4jScala . Untuk detail dan contoh buku catatan, lihat yang berikut ini:

Menginstal XGBoost di Azure Databricks

Jika Anda perlu menginstal XGBoost pada Databricks Runtime atau menggunakan versi yang berbeda dari yang sudah diinstal sebelumnya dengan ML Databricks Runtime, ikuti petunjuk ini.

Menginstal XGBoost pada ML Databricks Runtime

XGBoost disertakan dalam ML Databricks Runtime. Anda dapat menggunakan pustaka ini di ML Databricks Runtime tanpa menginstal paket apa pun.

Untuk versi XGBoost yang diinstal dalam versi ML Databricks Runtime yang Anda gunakan, lihat catatan rilis. Untuk menginstal versi Python lainnya di ML Databricks Runtime, instal XGBoost sebagai pustaka Databricks PyPI. Tentukan seperti berikut dan ganti <xgboost version> dengan versi yang diinginkan.

xgboost==<xgboost version>

Menginstal XGBoost pada Databricks Runtime

  • Paket Python: Jalankan perintah berikut ini pada sel buku catatan:

    %pip install xgboost
    

Untuk menginstal versi tertentu, gantikan <xgboost version> dengan versi yang diinginkan:

  %pip install xgboost==<xgboost version>
  • Paket Scala/Java: Instal sebagai pustaka Databricks dengan nama Paket Spark xgboost-linux64.