Connessione di Databricks per Python

Nota

Questo articolo illustra databricks Connessione per Databricks Runtime 13.0 e versioni successive.

Questo articolo illustra come iniziare rapidamente a usare Databricks Connessione usando Python e PyCharm.

Databricks Connessione consente di connettere gli IDE più diffusi, ad esempio PyCharm, i server notebook e altre applicazioni personalizzate ai cluster Di Azure Databricks. Vedere Che cos'è Databricks Connessione?.

Esercitazione

Per ignorare questa esercitazione e usare invece un IDE diverso, vedere Passaggi successivi.

Requisiti

Per completare questa esercitazione, è necessario soddisfare i requisiti seguenti:

  • L'area di lavoro e il cluster di Azure Databricks di destinazione devono soddisfare i requisiti per la configurazione del cluster per Databricks Connessione.

  • È necessario disporre dell'ID cluster disponibile. Per ottenere l'ID cluster, nell'area di lavoro fare clic su Calcolo sulla barra laterale e quindi sul nome del cluster. Nella barra degli indirizzi del Web browser copiare la stringa di caratteri tra clusters e configuration nell'URL.

  • È installato PyCharm. Questa esercitazione è stata testata con PyCharm Community Edition 2023.3.5. Se si usa una versione o un'edizione diversa di PyCharm, le istruzioni seguenti possono variare.

  • Python 3 è installato nel computer di sviluppo e la versione secondaria dell'installazione di Python client corrisponde alla versione secondaria di Python del cluster Azure Databricks. La tabella seguente illustra la versione di Python installata con ogni runtime di Databricks.

    Versione Databricks Runtime Versione di Python
    15,0 ML,
    15.0
    3.11
    13.0 ML - 14.3 ML,
    13.0 - 14.3
    3.10

Passaggio 1: Configurare l'autenticazione di Azure Databricks

Questa esercitazione usa l'autenticazione da utente a computer (U2M) di Azure Databricks e un profilo di configurazione di Azure Databricks per l'autenticazione con l'area di lavoro di Azure Databricks. Per usare invece un tipo di autenticazione diverso, vedere Configurare le proprietà di connessione.

La configurazione dell'autenticazione U2M OAuth richiede l'interfaccia della riga di comando di Databricks, come indicato di seguito:

  1. Se non è già installato, installare l'interfaccia della riga di comando di Databricks come indicato di seguito:

    Linux, macos

    Usare Homebrew per installare l'interfaccia della riga di comando di Databricks eseguendo i due comandi seguenti:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    È possibile usare winget, Chocolatey o sottosistema Windows per Linux (WSL) per installare l'interfaccia della riga di comando di Databricks. Se non è possibile usare winget, Chocolatey o WSL, è consigliabile ignorare questa procedura e usare il prompt dei comandi o PowerShell per installare l'interfaccia della riga di comando di Databricks dall'origine .

    Nota

    L'installazione dell'interfaccia della riga di comando di Databricks con Chocolatey è Sperimentale.

    Per usare winget per installare l'interfaccia della riga di comando di Databricks, eseguire i due comandi seguenti e quindi riavviare il prompt dei comandi:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Per usare Chocolatey per installare l'interfaccia della riga di comando di Databricks, eseguire il comando seguente:

    choco install databricks-cli
    

    Per usare WSL per installare l'interfaccia della riga di comando di Databricks:

    1. Installare curl e zip tramite WSL. Per altre informazioni, vedere la documentazione del sistema operativo.

    2. Usare WSL per installare l'interfaccia della riga di comando di Databricks eseguendo il comando seguente:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Verificare che l'interfaccia della riga di comando di Databricks sia installata eseguendo il comando seguente, che visualizza la versione corrente dell'interfaccia della riga di comando di Databricks installata. Questa versione deve essere 0.205.0 o successiva:

    databricks -v
    

    Nota

    Se si esegue databricks ma viene visualizzato un errore, command not found: databricksad esempio , o se si esegue databricks -v e viene elencato il numero di versione 0.18 o di seguito, significa che il computer non riesce a trovare la versione corretta dell'eseguibile dell'interfaccia della riga di comando di Databricks. Per risolvere questo problema, vedere Verificare l'installazione dell'interfaccia della riga di comando.

Avviare l'autenticazione U2M OAuth, come indicato di seguito:

  1. Usare l'interfaccia della riga di comando di Databricks per avviare la gestione dei token OAuth in locale eseguendo il comando seguente per ogni area di lavoro di destinazione.

    Nel comando seguente sostituire <workspace-url> con l'URL di Azure Databricks per area di lavoro, ad esempio https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. L'interfaccia della riga di comando di Databricks richiede di salvare le informazioni immesse come profilo di configurazione di Azure Databricks. Premere Enter per accettare il nome del profilo suggerito oppure immettere il nome di un profilo nuovo o esistente. Qualsiasi profilo esistente con lo stesso nome viene sovrascritto con le informazioni immesse. È possibile usare i profili per cambiare rapidamente il contesto di autenticazione tra più aree di lavoro.

    Per ottenere un elenco di tutti i profili esistenti, in un terminale o un prompt dei comandi separato, usare l'interfaccia della riga di comando di Databricks per eseguire il comando databricks auth profiles. Per visualizzare le impostazioni esistenti di un profilo specifico, eseguire il comando databricks auth env --profile <profile-name>.

  3. Nel Web browser completare le istruzioni visualizzate per accedere all'area di lavoro di Azure Databricks.

  4. Nell'elenco dei cluster disponibili visualizzati nel terminale o nel prompt dei comandi usare i tasti freccia su e freccia giù per selezionare il cluster Azure Databricks di destinazione nell'area di lavoro e quindi premere Enter. È anche possibile digitare qualsiasi parte del nome visualizzato del cluster per filtrare l'elenco dei cluster disponibili.

  5. Per visualizzare il valore corrente del token OAuth di un profilo e il timestamp di scadenza imminente del token, eseguire uno dei comandi seguenti:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se si dispone di più profili con lo stesso --host valore, potrebbe essere necessario specificare insieme le --host opzioni e -p per consentire all'interfaccia della riga di comando di Databricks di trovare le informazioni corrette corrispondenti sul token OAuth.

Passaggio 2: Creare il progetto

  1. Avviare PyCharm.
  2. Scegliere File > Nuovo progetto dal menu principale.
  3. Nella finestra di dialogo Nuovo progetto fare clic su Pure Python.
  4. Per Percorso fare clic sull'icona della cartella e completare le istruzioni visualizzate per specificare il percorso del nuovo progetto Python.
  5. Lasciare selezionata l'opzione Crea un main.py script di benvenuto.
  6. Per Tipo di interprete fare clic su Progetto venv.
  7. Espandere La versione di Python e usare l'icona della cartella o l'elenco a discesa per specificare il percorso dell'interprete Python dai requisiti precedenti.
  8. Fai clic su Crea.

Creare il progetto PyCharm

Passaggio 3: Aggiungere il pacchetto di Connessione Databricks

  1. Nel menu principale di PyCharm fare clic su Visualizza > pacchetti Python dello strumento>.
  2. Nella casella di ricerca immettere databricks-connect.
  3. Nell'elenco del repository PyPI fare clic su databricks-connect.
  4. Nell'elenco a discesa più recente del riquadro dei risultati selezionare la versione corrispondente alla versione di Databricks Runtime del cluster. Ad esempio, se nel cluster è installato Databricks Runtime 14.3, selezionare 14.3.1.
  5. Fare clic su Installa pacchetto.
  6. Dopo l'installazione del pacchetto, è possibile chiudere la finestra Pacchetti Python.

Installare il pacchetto di Connessione databricks

Passaggio 4: Aggiungere codice

  1. Nella finestra Strumento progetto fare clic con il pulsante destro del mouse sulla cartella radice del progetto e scegliere Nuovo > file Python.

  2. Immettere main.py e fare doppio clic su File Python.

  3. Immettere il codice seguente nel file e quindi salvare il file, a seconda del nome del profilo di configurazione.

    Se il profilo di configurazione del passaggio 1 è denominato DEFAULT, immettere il codice seguente nel file e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Se il profilo di configurazione del passaggio 1 non è denominato DEFAULT, immettere il codice seguente nel file. Sostituire il segnaposto <profile-name> con il nome del profilo di configurazione del passaggio 1 e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Passaggio 5: Eseguire il codice

  1. Avviare il cluster di destinazione nell'area di lavoro remota di Azure Databricks.
  2. Dopo l'avvio del cluster, nel menu principale fare clic su Esegui > 'main'.
  3. Nella finestra Esegui strumento (Visualizza >> esecuzione strumento) del riquadro principale della scheda Esegui vengono visualizzate le prime 5 righe di .samples.nyctaxi.trips

Passaggio 6: Eseguire il debug del codice

  1. Con il cluster ancora in esecuzione, nel codice precedente fare clic sulla barra accanto a df.show(5) per impostare un punto di interruzione.
  2. Nel menu principale fare clic su Esegui > debug 'main'.
  3. Nella finestra Dello strumento di debug (Visualizza >debug di Finestre > degli strumenti), nel riquadro Variabili della scheda Debugger espandere i nodi di variabili df e spark per esplorare le informazioni sulle variabili e spark sul df codice.
  4. Nella barra laterale della finestra dello strumento di debug fare clic sulla freccia verde (Riprendi programma).
  5. Nel riquadro Console della scheda Debugger vengono visualizzate le prime 5 righe dell'oggetto samples.nyctaxi.trips .

Eseguire il debug del progetto PyCharm

Passaggi successivi

Per altre informazioni su Databricks Connessione, vedere articoli come i seguenti: