Partager via


Didacticiel sur l’extension VSCode pour Databricks : Exécuter Python sur un cluster et en tant que travail

Ce didacticiel montre comment démarrer avec l’extension Databricks pour Visual Studio Code en exécutant un fichier de code Python de base sur un cluster Azure Databricks et en tant qu’exécution de travail Azure Databricks dans votre espace de travail distant. Consultez Présentation de l’extension Databricks pour Visual Studio Code.

Que ferez-vous dans ce didacticiel ?

Dans ce didacticiel pratique, vous effectuerez les tâches suivantes :

  • Créer un cluster Azure Databricks pour exécuter votre code Python local.
  • Installer Visual Studio Code et l’extension Databricks pour Visual Studio Code.
  • Configurez l’authentification Azure Databricks et l’extension Databricks pour Visual Studio Code à l’aide de ces informations.
  • Configurez l’extension Databricks pour Visual Studio Code avec des informations sur votre cluster distant et disposez de l’extension pour démarrer le cluster.
  • Configurez l’extension Databricks pour Visual Studio Code avec l’emplacement de votre espace de travail Azure Databricks distant pour charger votre code Python local et pour que l’extension commence à écouter les événements de chargement de code.
  • Écrivez et enregistrez du code Python, ce qui déclenche un événement de chargement de code.
  • Utilisez l’extension Databricks pour Visual Studio Code pour exécuter le code chargé sur votre cluster distant, puis pour l’exécuter avec votre cluster en tant que travail distant.

Ce didacticiel montre uniquement comment exécuter un fichier de code Python. Cet autre montre uniquement comment configurer l’authentification utilisateur à machine (U2M) OAuth. Pour savoir comment déboguer des fichiers de code Python, exécuter et déboguer des notesbooks, et configurer d’autres types d’authentification, consultez Étapes suivantes.

Étape 1 : Créer un cluster

Si vous disposez déjà d’un cluster Azure Databricks distant que vous souhaitez utiliser, notez le nom du cluster et passez à l’étape 2 pour installer Visual Studio Code. Pour afficher vos clusters disponibles, dans la barre latérale de votre espace de travail, cliquez sur Calcul.

Databricks vous recommande de créer un cluster Calcul personnel pour démarrer rapidement. Pour créer ce cluster, procédez ainsi :

  1. Dans votre espace de travail Azure Databricks, dans la barre latérale, cliquez sur Calcul.
  2. Cliquez sur Créer avec Calcul personnel.
  3. Cliquez sur Créer un calcul.
  4. Notez le nom de votre cluster, car vous en aurez besoin ultérieurement à l’étape 5 lorsque vous ajoutez des informations de cluster à l’extension.

Étape 2 : Installez Visual Studio Code

Pour installer Visual Studio Code, suivez les instructions pour macOS, Linuxou Windows.

Si Visual Studio Code est déjà installé, vérifiez s’il s’agit de la version 1.69.1 ou ultérieure. Pour ce faire, dans Visual Studio Code, dans le menu principal, cliquez sur Code > À propos de Visual Studio Code pour macOS ou Aide > À propos de pour Linux ou Windows.

Pour mettre à jour Visual Studio Code, dans le menu principal, cliquez sur Code > Rechercher les mises à jour pour macOS ou Aide > Rechercher les mises à jour pour Linux ou Windows.

Étape 3 : Installez l’extension Databricks

Utiliser l’extension Visual Studio Code

  1. Dans la barre latérale Visual Studio Code, cliquez sur l’icône Extensions.
  2. Dans Rechercher des extensions dans la place de marché, entrez Databricks.
  3. Dans l’entrée Databricks avec le sous-titre Prise en charge de l’IDE Databricks par Databricks, cliquez sur Installer.

Étape 4 : Configurez l’authentification Azure Databricks

Dans cette étape, vous activez l’authentification entre l’extension Databricks pour Visual Studio Code et votre espace de travail Azure Databricks distant, comme suit :

  1. À partir de Visual Studio Code, ouvrez un dossier vide sur votre ordinateur de développement local que vous utiliserez pour contenir le code Python que vous allez créer et exécuter ultérieurement à l’étape 7. Pour ce faire, dans le menu principal, cliquez sur Fichier > Ouvrir le dossier et suivez les instructions à l’écran.
  2. Dans la barre latérale Visual Studio Code, cliquez sur l’icône du logo Databricks.
  3. Dans le volet Configuration, cliquez sur Configurer Databricks.
  4. Dans la palette de commandes, pour Databricks Host (Hôte Databricks), entrez votre URL par espace de travail, par exemple https://adb-1234567890123456.7.azuredatabricks.net. Appuyez sur Entrée.
  5. Sélectionnez OAuth (utilisateur à machine).
  6. Suivez les instructions à l’écran dans votre navigateur web pour terminer l’authentification avec Azure Databricks. Si vous y êtes invité, autorisez l’accès all-apis.

Étape 5 : Ajoutez des informations de cluster à l’extension Databricks et démarrez le cluster

  1. Dans le volet Configuration déjà ouvert depuis l’étape précédente où vous avez configuré l’authentification, à côté de Cluster, cliquez sur l’icône de l’engrenage (Configurer le cluster).
  2. Dans la palette de commandes, sélectionnez le nom du cluster que vous avez créé à l’étape 1.
  3. Démarrez le cluster, si ce n’est pas déjà fait : en regard de Cluster, si l’icône de lecture (Démarrer le cluster) est visible, cliquez dessus.

Démarrer le cluster

Étape 6 : Ajoutez l’emplacement de chargement du code à l’extension Databricks et démarrez l’écouteur de chargement

  1. Dans le volet Configuration déjà ouvert depuis l’étape précédente où vous avez configuré l’authentification, à côté de Destination de synchronisation, cliquez sur l’icône de l’enregenage (Configurer la destination de synchronisation).
  2. Dans la palette de commandes, sélectionnez Créer une nouvelle destination de synchronisation.
  3. Appuyez sur Enter pour confirmer le nom du répertoire de chargement distant généré.
  4. Démarrez l’écouteur de chargement, si ce n’est pas déjà fait : en regard de Destination de synchronisation, si l’icône de cercle en flèches est visible (Démarrer la synchronisation), cliquez dessus.

Démarrer l’écouteur de chargement

Étape 7 : Créez et exécutez du code Python

  1. Créez un fichier de code Python local : dans la barre latérale, cliquez sur l’icône du dossier (Explorer).

  2. Dans le menu principal, cliquez sur Fichier > Nouveau fichier. Nommez le fichier demo.py, puis enregistrez-le à la racine du projet.

  3. Ajoutez le code suivant au fichier, puis enregistrez-le. Ce code crée, puis affiche le contenu d’un DataFrame PySpark de base :

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Dans la vue Explorer : cliquez avec le bouton droit de la souris sur le fichier demo.py, puis cliquez sur Charger et exécuter un fichier sur Databricks. La sortie apparaît dans le volet Console de débogage.

Charger et exécuter un fichier sur Databricks

Étape 8 : Exécutez le code en tant que travail

Dans l’étape précédente, vous avez exécuté votre code Python directement sur le cluster distant. Dans cette étape, vous lancez un workflow qui utilise le cluster pour exécuter le code en tant que travail Azure Databricks à la place. Consultez Qu’est-ce que les travaux Azure Databricks ?.

Pour exécuter ce code en tant que travail, dans la vue Explorer, cliquez avec le bouton droit de la souris sur le fichier demo.py, puis cliquez sur Exécuter le fichier en tant que flux de travail sur Databricks. La sortie apparaît dans un onglet d’éditeur distinct en regard de l’éditeur de fichiers demo.py.

Exécuter un fichier comme flux de travail sur Databricks

Vous avez atteint la fin de ce guide.

Étapes suivantes

Maintenant que vous avez correctement utilisé l’extension Databricks de Visual Studio Code pour charger un fichier Python local et l’exécuter à distance, découvrez comment utiliser l’extension :