Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo fornece exemplos de modelos de aprendizado de máquina de treinamento usando XGBoost no Azure Databricks. O Databricks Runtime for Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode treinar modelos XGBoost em uma máquina individual ou de forma distribuída.
Treinar modelos XGBoost em um único nó
Você pode treinar modelos usando o pacote Python xgboost . Este pacote suporta apenas cargas de trabalho de nó único. Para treinar um pipeline de ML do PySpark e aproveitar o treinamento distribuído, consulte Treinamento distribuído de modelos XGBoost.
Bloco de notas de Python para XGBoost
Treinamento distribuído de modelos XGBoost
Para treinamento distribuído de modelos XGBoost, o xgboost Databricks inclui estimadores PySpark baseados no pacote. No Databricks Runtime 16.4 LTS ML e inferior, o Databricks também inclui o pacote Scala xgboost-4j. Para obter detalhes e exemplos de blocos de anotações, consulte o seguinte:
-
Treinamento distribuído de modelos XGBoost usando
xgboost.spark(Databricks Runtime 12.0 ML e superior) -
Treinamento distribuído de modelos XGBoost usando
sparkdl.xgboost(preterido a partir do Databricks Runtime 12.0 ML) - Treinamento distribuído de modelos XGBoost usando Scala
Instalar o XGBoost no Azure Databricks
Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente da pré-instalada com o Databricks Runtime ML, siga estas instruções.
Instalar o XGBoost no Databricks Runtime ML
O XGBoost está incluído no Databricks Runtime ML. Pode utilizar estas bibliotecas no Databricks Runtime ML sem instalar nenhum pacote.
Relativamente à versão do XGBoost instalado na versão do Databricks Runtime ML que está a utilizar, veja as notas de versão. Para instalar outras versões de Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-a da seguinte forma e substitua <xgboost version> pela versão pretendida.
xgboost==<xgboost version>
Instalar o XGBoost no Databricks Runtime
Pacote Python: execute o seguinte comando em uma célula do bloco de anotações:
%pip install xgboost
Para instalar uma versão específica, substitua <xgboost version> pela versão desejada:
%pip install xgboost==<xgboost version>
-
Pacotes Scala/Java: Instale como uma biblioteca Databricks com o nome
xgboost-linux64do pacote Spark.