Condividi tramite


Eseguire la migrazione a Databricks Connect per Python

Questo articolo descrive come eseguire la migrazione da Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive a Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive per Python. Databricks Connect consente di connettere gli IDE, i server notebook e le applicazioni personalizzate più diffusi ai cluster Azure Databricks. Vedere Che cos'è Databricks Connect?. Per la versione scala di questo articolo, vedere Eseguire la migrazione a Databricks Connect per Scala.

Nota

Prima di iniziare a usare Databricks Connect, è necessario configurare il client Databricks Connect.

Seguire queste linee guida per eseguire la migrazione del progetto di codice Python esistente o dell'ambiente di codifica da Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive a Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.

  1. Installare la versione corretta di Python come indicato nei requisiti di installazione in modo che corrispondano al cluster Azure Databricks, se non è già installato in locale.

  2. Aggiornare l'ambiente virtuale Python per usare la versione corretta di Python in modo che corrisponda al cluster, se necessario. Per istruzioni, vedere la documentazione del provider di ambiente virtuale.

  3. Con l'ambiente virtuale attivato, disinstallare PySpark dall'ambiente virtuale:

    pip3 uninstall pyspark
    
  4. Con l'ambiente virtuale ancora attivato, disinstallare Databricks Connect per Databricks Runtime 12.2 LTS e versioni successive:

    pip3 uninstall databricks-connect
    
  5. Con l'ambiente virtuale ancora attivato, installare Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    Databricks consiglia di aggiungere la notazione "dot-asterisk" per specificare databricks-connect==X.Y.* invece di databricks-connect=X.Y, per assicurarsi che il pacchetto più recente sia installato. Anche se questo non è un requisito, consente di assicurarsi di poter usare le funzionalità supportate più recenti per tale cluster.

  6. Aggiornare il codice Python per inizializzare la spark variabile ( che rappresenta una creazione di istanze della DatabricksSession classe , simile a SparkSession in PySpark). Per esempi di codice, vedere Installare Databricks Connect per Python.

  7. Eseguire la migrazione delle API RDD per usare le API dataframe ed eseguire la migrazione SparkContext di per usare alternative.

Impostare le configurazioni Hadoop

Nel client è possibile impostare le configurazioni di Hadoop usando l'API spark.conf.set , che si applica alle operazioni SQL e DataFrame. Le configurazioni hadoop impostate in sparkContext devono essere impostate nella configurazione del cluster o usando un notebook. Ciò è dovuto al fatto che le configurazioni impostate in sparkContext non sono associate alle sessioni utente, ma si applicano all'intero cluster.