Partilhar via


Migrar para o Databricks Connect for Python

Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite conectar IDEs populares, servidores de notebook e aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?. Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.

Nota

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

  1. Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao seu cluster do Azure Databricks, se ele ainda não estiver instalado localmente.

  2. Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.

  3. Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:

    pip3 uninstall databricks-connect
    
  5. Com seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

  6. Atualize seu código Python para inicializar a spark variável (que representa uma instanciação da DatabricksSession classe, semelhante ao SparkSession PySpark). Para obter exemplos de código, consulte Instalar o Databricks Connect for Python.

  7. Migre suas APIs RDD para usar APIs DataFrame e migre SparkContext suas para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a spark.conf.set API, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas não sparkContext estão vinculadas às sessões do usuário, mas se aplicam a todo o cluster.