Partager via


Didacticiel : exécuter Python sur un cluster et en tant que job en utilisant l'extension Databricks pour Visual Studio Code

Ce tutoriel vous guide dans la configuration de l'extension Databricks pour Visual Studio Code, puis dans l'exécution de Python sur un cluster Azure Databricks et en tant que tâche Azure Databricks dans votre espace de travail distant. Consultez Présentation de l’extension Databricks pour Visual Studio Code.

Spécifications

Ce didacticiel requiert que :

  • Vous avez installé l’extension Databricks pour Visual Studio Code. Consultez Installer l’extension Databricks pour Visual Studio Code.
  • Vous disposez d’un cluster Azure Databricks distant à utiliser. Notez le nom de votre cluster. Pour afficher vos clusters disponibles, dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Calcul. Voir Calculer.

Étape 1 : Créer un projet Databricks

Dans cette étape, vous créez un projet Databricks et configurez la connexion avec votre espace de travail Azure Databricks distant.

  1. Lancez Visual Studio Code, puis cliquez sur Fichier > Ouvrir le dossier et ouvrez un dossier vide sur votre ordinateur de développement local.
  2. Dans la barre latérale, cliquez sur l’icône du logo Databricks. Cela ouvre l’extension Databricks.
  3. Dans la vue Configuration, cliquez sur Migrer vers un projet Databricks.
  4. La palette de commandes pour configurer votre espace de travail Databricks s’ouvre. Pour l’hôte Databricks, entrez ou sélectionnez votre URL par espace de travail, par exemple https://adb-1234567890123456.7.azuredatabricks.net.
  5. Sélectionnez un profil d’authentification pour le projet. Consultez configuration de l’authentification pour l’extension Databricks pour Visual Studio Code.

Étape 2 : Ajoutez des informations de cluster à l’extension Databricks et démarrez le cluster

  1. Une fois l’affichage Configuration déjà ouvert, cliquez sur Sélectionner un cluster ou cliquez sur l’icône engrenage (Configurer le cluster).

    Configurer le cluster

  2. Dans la palette de commandes, sélectionnez le nom du cluster que vous avez créé précédemment.

  3. Cliquez sur l’icône de lecture (Démarrer le cluster) si elle n’est pas déjà démarrée.

Étape 3 : Créez et exécutez du code Python

  1. Créez un fichier de code Python local : dans la barre latérale, cliquez sur l’icône du dossier (Explorer).

  2. Dans le menu principal, cliquez sur Fichier > Nouveau fichier. Nommez le fichier demo.py, puis enregistrez-le à la racine du projet.

  3. Ajoutez le code suivant au fichier, puis enregistrez-le. Ce code crée, puis affiche le contenu d’un DataFrame PySpark de base :

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Cliquez sur l’icône Exécuter sur Databricks en regard de la liste des onglets de l’éditeur, puis cliquez sur Charger et exécuter un fichier. La sortie apparaît dans la vue Console de débogage.

    Charger et exécuter un fichier à partir de l’icône

    Vous pouvez également, dans la vue Explorateur, cliquez avec le bouton droit de la souris sur le fichier demo.py, puis cliquez sur Exécuter sur Databricks>Télécharger et exécuter le fichier.

    Charger et exécuter un fichier à partir du menu contextuel

Étape 4 : Exécutez le code en tant que travail

Pour exécuter demo.py en tant que travail, cliquez sur l’icône Exécuter sur Databricks en regard de la liste des onglets de l’éditeur, puis cliquez sur Exécuter un fichier en tant que flux de travail. La sortie apparaît dans un onglet d’éditeur distinct en regard de l’éditeur de fichiers demo.py.

Exécuter un fichier en tant que flux de travail à partir de l’icône

Vous pouvez également cliquer avec le bouton droit sur le fichier demo.py dans le panneau Explorateur, puis sélectionner Exécuter sur Databricks>Exécuter le fichier en tant que flux de travail.

Exécuter un fichier en tant que flux de travail à partir du menu contextuel

Étapes suivantes

Maintenant que vous avez correctement utilisé l’extension Databricks de Visual Studio Code pour charger un fichier Python local et l’exécuter à distance, vous pouvez également :