Tutoriel : Exécuter Python sur un cluster et en tant que travail à l’aide de l’extension Databricks pour Visual Studio Code

Ce tutoriel vous guide tout au long de la configuration de l’extension Databricks pour Visual Studio Code, puis l’exécution de Python sur un cluster Azure Databricks et en tant que travail de Azure Databricks dans votre espace de travail distant. Consultez l’extension Databricks pour Visual Studio Code.

Spécifications

Ce didacticiel requiert que :

Vous avez installé l’extension Databricks pour Visual Studio Code. Consultez Installer l’extension Databricks pour Visual Studio Code.
Vous disposez d’un cluster Azure Databricks distant à utiliser. Notez le nom du cluster. Pour afficher vos clusters disponibles, dans votre Azure Databricks barre latérale de l’espace de travail, cliquez sur Compute. Voir Calculer.

Étape 1 : Créer un projet Databricks

Dans cette étape, vous créez un projet Databricks et configurez la connexion avec votre espace de travail Azure Databricks distant.

Lancez Visual Studio Code, puis cliquez sur File > Ouvrir le dossier et ouvrez un dossier vide sur votre ordinateur de développement local.
Dans la barre latérale, cliquez sur l’icône du logo Databricks. Cela ouvre l’extension Databricks.
Dans la vue Configuration, cliquez sur Créer une configuration.
La palette de commandes pour configurer votre espace de travail Databricks s’ouvre. Pour l’hôte Databricks, entrez ou sélectionnez votre URL par espace de travail, par exemple https://adb-1234567890123456.7.azuredatabricks.net.
Sélectionnez un profil d’authentification pour le projet. Consultez Configurer l’autorisation pour l’extension Databricks pour Visual Studio Code.

Étape 2 : Ajoutez des informations de cluster à l’extension Databricks et démarrez le cluster

Une fois l’affichage Configuration déjà ouvert, cliquez sur Sélectionner un cluster ou cliquez sur l’icône engrenage (Configurer le cluster).
Dans la palette de commandes, sélectionnez le nom du cluster que vous avez créé précédemment.
Cliquez sur l’icône de lecture (Démarrer le cluster) s'il n’est pas déjà démarré.

Étape 3 : Créer et exécuter Python code

Créez un fichier de code Python local : dans la barre latérale, cliquez sur l’icône du dossier (Explorer).
Dans le menu principal, cliquez sur File > Nouveau fichier et choisissez un fichier Python. Nommez le fichier demo.py et enregistrez-le à la racine du projet.

Ajoutez le code suivant au fichier, puis enregistrez-le. Ce code crée, puis affiche le contenu d’un DataFrame PySpark de base :

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

Cliquez sur l’icône Exécuter sur Databricks en regard de la liste des onglets de l’éditeur, puis cliquez sur Charger et exécuter un fichier. La sortie apparaît dans l'affichage Console de débogage.

Vous pouvez également, dans la vue Explorateur, cliquez avec le bouton droit de la souris sur le fichier demo.py, puis cliquez sur Exécuter sur Databricks>Télécharger et exécuter le fichier.

Étape 4 : Exécutez le code en tant que travail

Pour exécuter demo.py en tant que travail, cliquez sur l’icône Exécuter sur Databricks en regard de la liste des onglets de l’éditeur, puis cliquez sur Exécuter un fichier en tant que flux de travail. La sortie apparaît dans un onglet d’éditeur distinct en regard de l’éditeur de fichiers demo.py.

Vous pouvez également cliquer avec le bouton droit sur le fichier demo.py dans le panneau Explorateur, puis sélectionner Exécuter sur Databricks>Exécuter le fichier en tant que flux de travail.

Exécuter un fichier en tant que flux de travail à partir du menu contextuel

Étapes suivantes

Maintenant que vous avez correctement utilisé l’extension Databricks pour Visual Studio Code pour charger un fichier Python local et l’exécuter à distance, vous pouvez également :

Explorez les ressources et les variables des Bundles d'automatisation déclarative à l’aide de l’interface utilisateur de l’extension. Consultez les fonctionnalités d’extension des bundles d’automatisation déclarative.
Exécutez ou déboguez du code Python avec Databricks Connect. Consultez Déboguer le code avec Databricks Connect pour l'extension Databricks de Visual Studio Code.
Exécutez un fichier ou un bloc-notes en tant que travail Azure Databricks. Consultez Exécuter un fichier sur un cluster ou un fichier ou notebook en tant que tâche dans Azure Databricks à l'aide de l'extension Databricks pour Visual Studio Code.
Exécutez des tests avec pytest. Consultez Run Python tests à l’aide de l’extension Databricks pour Visual Studio Code.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19