Använda XGBoost på Azure Databricks

Den här artikeln innehåller exempel på hur du tränar maskininlärningsmodeller med XGBoost i Azure Databricks. Databricks Runtime for Machine Learning innehåller XGBoost-bibliotek för både Python och Scala. Du kan träna XGBoost-modeller på en enskild dator eller på ett distribuerat sätt.

Träna XGBoost-modeller på en enda nod

Du kan träna modeller med hjälp av Python-paketet xgboost . Det här paketet stöder endast arbetsbelastningar med en enda nod. Information om hur du tränar en PySpark ML-pipeline och drar nytta av distribuerad träning finns i Distribuerad träning av XGBoost-modeller.

Python-notebook-fil för XGBoost

Hämta notebook-fil

Distribuerad träning av XGBoost-modeller

För distribuerad träning av XGBoost-modeller innehåller Databricks PySpark-skattningar baserat på xgboost paketet. Databricks innehåller även Scala-paketet xgboost-4j. Mer information och exempel på notebook-filer finns i följande:

Installera XGBoost på Azure Databricks

Om du behöver installera XGBoost på Databricks Runtime eller använda en annan version än den som är förinstallerad med Databricks Runtime ML följer du dessa instruktioner.

Installera XGBoost på Databricks Runtime ML

XGBoost ingår i Databricks Runtime ML. Du kan använda de här biblioteken i Databricks Runtime ML utan att installera några paket.

Läs Viktig information för den version av XGBoost som är installerad i den Databricks Runtime ML-version som du använder. Om du vill installera andra Python-versioner i Databricks Runtime ML, installerar du XGBoost som ett Databricks PyPI-bibliotek. Ange det som följande och ersätt <xgboost version> med önskad version.

xgboost==<xgboost version>

Installera XGBoost på Databricks Runtime

  • Python-paket: Kör följande kommando i en notebook-cell:

    %pip install xgboost
    

Om du vill installera en viss version ersätter du <xgboost version> med önskad version:

  %pip install xgboost==<xgboost version>