Migrar para o Databricks Connect for Python
Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite conectar IDEs populares, servidores de notebook e aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?. Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.
Nota
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
Siga estas diretrizes para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior.
Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao seu cluster do Azure Databricks, se ele ainda não estiver instalado localmente.
Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.
Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pyspark
Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
pip3 uninstall databricks-connect
Com seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Nota
O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar
databricks-connect==X.Y.*
em vez dedatabricks-connect=X.Y
, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.Atualize seu código Python para inicializar a
spark
variável (que representa uma instanciação daDatabricksSession
classe, semelhante aoSparkSession
PySpark). Para obter exemplos de código, consulte Instalar o Databricks Connect for Python.Migre suas APIs RDD para usar APIs DataFrame e migre
SparkContext
suas para usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a spark.conf.set
API, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext
devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas não sparkContext
estão vinculadas às sessões do usuário, mas se aplicam a todo o cluster.