Korzystanie z biblioteki XGBoost w usłudze Azure Databricks

Ten artykuł zawiera przykłady trenowania modeli uczenia maszynowego przy użyciu biblioteki XGBoost w usłudze Azure Databricks. Środowisko Uruchomieniowe usługi Databricks dla maszyny Edukacja zawiera biblioteki XGBoost dla języków Python i Scala. Modele XGBoost można trenować na poszczególnych maszynach lub w sposób rozproszony.

Trenowanie modeli XGBoost w jednym węźle

Modele można trenować przy użyciu pakietu języka Python xgboost . Ten pakiet obsługuje tylko obciążenia z jednym węzłem. Aby wytrenować potok uczenia maszynowego PySpark i skorzystać z trenowania rozproszonego, zobacz Rozproszone trenowanie modeli XGBoost.

Notes biblioteki XGBoost języka Python

Pobierz notes

Rozproszone trenowanie modeli XGBoost

W przypadku rozproszonego trenowania modeli XGBoost usługa Databricks obejmuje narzędzia do szacowania PySpark na xgboost podstawie pakietu. Usługa Databricks zawiera również pakiet xgboost-4jScala . Aby uzyskać szczegółowe informacje i przykładowe notesy, zobacz następujące artykuły:

Instalowanie biblioteki XGBoost w usłudze Azure Databricks

Jeśli musisz zainstalować bibliotekę XGBoost w środowisku Databricks Runtime lub użyć innej wersji niż wstępnie zainstalowana w środowisku Databricks Runtime ML, postępuj zgodnie z tymi instrukcjami.

Instalowanie biblioteki XGBoost w środowisku Databricks Runtime ML

Biblioteka XGBoost jest zawarta w środowisku Databricks Runtime ML. Tych bibliotek można używać w środowisku Databricks Runtime ML bez instalowania pakietów.

Informacje o wersji biblioteki XGBoost zainstalowanej w używanej wersji środowiska Databricks Runtime ML znajdują się w informacjach o wersji. Aby zainstalować inne wersje języka Python w środowisku Databricks Runtime ML, zainstaluj bibliotekę XGBoost jako bibliotekę Databricks PyPI. Określ ją w następujący sposób i zastąp ciąg <xgboost version> odpowiednią wersją.

xgboost==<xgboost version>

Instalowanie biblioteki XGBoost w środowisku Databricks Runtime

  • Pakiet języka Python: Wykonaj następujące polecenie w komórce notesu:

    %pip install xgboost
    

Aby zainstalować określoną wersję, zastąp odpowiednią <xgboost version> wersją:

  %pip install xgboost==<xgboost version>
  • Pakiety Scala/Java: zainstaluj jako bibliotekę usługi Databricks przy użyciu nazwy xgboost-linux64pakietu Spark .