Utiliser Azure Data Lake Tools pour Visual Studio Code
Important
Les nouveaux comptes Azure Data Lake Analytics ne peuvent plus être créés, sauf si votre abonnement a été activé. Si vous avez besoin que votre abonnement soit activé, contactez le support technique et indiquez votre scénario professionnel.
Si vous utilisez déjà Azure Data Lake Analytics, vous devez créer un plan de migration vers Azure Synapse Analytics pour votre organisation avant le 29 février 2024.
Dans cet article, vous allez apprendre à utiliser Azure Data Lake Tools pour Visual Studio Code (VS Code) pour créer, tester et exécuter des scripts U-SQL. Ces informations sont également décrites dans la vidéo suivante :
Prérequis
Azure Data Lake Tools pour VS Code prend en charge Windows, Linux et MacOS. L’exécution locale et le débogage local de U-SQL fonctionnent uniquement pour les utilisateurs de Windows.
Pour macOS et Linux :
Installer les outils Azure Data Lake
Après avoir installé les prérequis, vous pouvez installer Azure Data Lake Tools pour Visual Studio Code.
Pour installer Azure Data Lake Tools
Ouvrez Visual Studio Code.
Sélectionnez Extensions dans le volet gauche. Entrez Azure Data Lake Tools dans la zone de recherche.
Sélectionnez Installer en regard de Azure Data Lake Tools.
Après quelques secondes, le bouton Installer est remplacé par le bouton Recharger.
Sélectionnez Recharger pour activer l’extension Azure Data Lake Tools.
Sélectionnez Recharger la fenêtre pour confirmer. Azure Data Lake Tools s’affiche dans le volet Extensions.
Activer Azure Data Lake Tools
Créez un fichier .usql ou ouvrez un fichier .usql existant pour activer l’extension.
Utilisation de U-SQL
Vous devez ouvrir un fichier ou un dossier U-SQL pour utiliser U-SQL.
Pour ouvrir l’exemple de script
Ouvrez la palette de commandes (Ctrl+Maj+P) et entrez ADL: Open Sample Script. Une autre instance de cet exemple s’ouvre. Vous pouvez également modifier, configurer et envoyer un script sur cette instance.
Pour ouvrir un dossier pour votre projet U-SQL
À partir de Visual Studio Code, sélectionnez le menu Fichier, puis Ouvrir un dossier.
Spécifiez un dossier, puis sélectionnez Sélectionner le dossier.
Sélectionnez le menu Fichier, puis Nouveau. Un fichier Untitled-1 est ajouté au projet.
Entrez le code suivant dans le fichier Untitled-1 :
@departments = SELECT * FROM (VALUES (31, "Sales"), (33, "Engineering"), (34, "Clerical"), (35, "Marketing") ) AS D( DepID, DepName );
OUTPUT @departments TO "/Output/departments.csv" USING Outputters.Csv();
Le script crée un fichier departments.csv avec des données dans le dossier /output.
Enregistrez le fichier sous myUSQL.usql dans le dossier ouvert.
Pour compiler un script U-SQL
- Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
- Entrez ADL: Compile Script. Les résultats de la compilation s’affichent dans la fenêtre Output. Vous pouvez également cliquer avec le bouton droit sur un fichier de script, puis sélectionner ADL: Compile Script pour compiler un travail U-SQL. Le résultat de la compilation s’affiche dans le volet Output.
Pour envoyer un script U-SQL
- Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
- Entrez ADL: Submit Job. Vous pouvez également cliquer avec le bouton droit sur un fichier de script, puis sélectionner ADL: Submit Job.
Une fois que vous avez envoyé un travail U-SQL, les journaux d’activité d’envoi apparaissent dans la fenêtre Output dans VS Code. La vue des travaux apparaît dans le volet droit. Si l’envoi a abouti, l’URL du travail est également affichée. Vous pouvez ouvrir l’URL du travail dans un navigateur web pour suivre l’état du travail en temps réel.
L’onglet SUMMARY (RÉSUMÉ) de la vue des travaux affiche les détails du travail. Les principales fonctions disponibles sont le renvoi d'un script, la duplication d'un script et l’ouverture dans le portail. L’onglet DATA (DONNÉES) de la vue des travaux vous permet de vous référer aux fichiers d’entrée, aux fichiers de sortie et aux ressources. Vous pouvez télécharger les fichiers sur l’ordinateur local.
Pour définir le contexte par défaut
Si vous n’avez pas configuré les fichiers individuellement, vous pouvez définir le contexte par défaut pour l'appliquer à tous les fichiers de script.
Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
Entrez ADL: Set Default Context. Ou cliquez avec le bouton droit sur l’éditeur de script, puis sélectionnez ADL: Set Default Context.
Choisissez le compte, la base de données et le schéma souhaités. La configuration est enregistrée dans le fichier xxx_settings.json.
Pour définir les paramètres de script
Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
Entrez ADL: Set Script Parameters.
Le fichier xxx_settings.json s’ouvre avec les propriétés suivantes :
- account : compte Azure Data Lake Analytics situé sous votre abonnement Azure et nécessaire à la compilation et à l’exécution des travaux U-SQL. Vous devez configurer le compte d’ordinateur avant de compiler et d’exécuter les travaux U-SQL.
- database: base de données sous votre compte. La valeur par défaut est master.
- schema: schéma sous votre base de données. La valeur par défaut est dbo.
-
optionalSettings :
- priority: la plage de priorité est comprise entre 1 et 1000. 1 correspond à la priorité la plus élevée. La valeur par défaut est 1000.
- degreeOfParallelism: la plage de parallélisme est comprise entre 1 et 150. La valeur par défaut est le parallélisme maximal autorisé dans votre compte Azure Data Lake Analytics.
Notes
Une fois la configuration enregistrée et si vous n’avez pas défini de contexte par défaut, les informations relatives au compte, à la base de données et au schéma s’affichent sur la barre d’état, en bas à gauche du fichier .usql correspondant.
Pour définir Git Ignore
Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
Entrez ADL: Set Git Ignore.
- Si votre dossier de travail VSCode ne contient pas de fichier .gitIgnore, un fichier nommé .gitIgnore y est créé. Quatre éléments (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache et obj) sont ajoutés au fichier par défaut. Si nécessaire, vous pouvez effectuer d'autres mises à jour.
- Si votre dossier de travail VSCode contient déjà un fichier .gitIgnore, l’outil ajoute quatre éléments (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache et obj) dans votre fichier .gitIgnore, à condition qu’ils n’y figurent pas déjà.
Travailler avec les fichiers code-behind : C Sharp, Python et R
Azure Data Lake Tools prend en charge différents codes personnalisés. Pour obtenir des instructions, reportez-vous à Développer en U-SQL avec Python, R et C Sharp pour Azure Data Lake Analytics dans VSCode.
Travailler avec les assemblies
Pour plus d’informations sur le développement d’assemblys, consultez Développement d’assemblys U-SQL pour les tâches d’Azure Data Lake Analytics.
Vous pouvez utiliser Data Lake Tools pour inscrire des assemblys de code personnalisé dans le catalogue Data Lake Analytics.
Pour inscrire un assembly
Vous pouvez inscrire l’assembly via la commande ADL: Register Assembly ou ADL: Register Assembly (Advanced) .
Pour effectuer une inscription via ADL : Commande Register Assembly
- Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
- Entrez ADL: Register Assembly.
- Spécifiez le chemin d’accès de l’assembly local.
- Sélectionnez un compte Data Lake Analytics.
- Sélectionnez une base de données.
Le portail s’ouvre dans un navigateur et affiche le processus d’inscription de l’assembly.
Pour déclencher la commande ADL: Register Assembly, vous pouvez également cliquer avec le bouton droit sur le fichier .dll dans l’Explorateur de fichiers.
Pour effectuer une inscription via ADL : Commande Register Assembly (Advanced)
Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
Entrez ADL: Register Assembly (Advanced) .
Spécifiez le chemin d’accès de l’assembly local.
Le fichier JSON s’affiche. Examinez et modifiez, si nécessaire, les paramètres des ressources et les dépendances de l’assembly. Les instructions s’affichent dans la fenêtre Output. Pour procéder à l’inscription de l’assembly, enregistrez (Ctrl+S) le fichier JSON.
Notes
- S'il existe des dépendances de l’assembly dans la bibliothèque de liens dynamiques (DLL), Azure Data Lake Tools les détecte automatiquement. Une fois détectées, les dépendances apparaissent dans le fichier JSON.
- Vous pouvez charger vos ressources DLL (.txt, .png et .csv, par exemple) dans le cadre de l’inscription de l’assembly.
Pour déclencher la commande ADL: Register Assembly (Advanced) , vous pouvez également cliquer avec le bouton droit sur le fichier .dll dans l’Explorateur de fichiers.
Le code U-SQL suivant montre comment appeler un assembly. Dans l’exemple, le nom de l’assembly est test.
REFERENCE ASSEMBLY [test];
@a =
EXTRACT
Iid int,
Starts DateTime,
Region string,
Query string,
DwellTime int,
Results string,
ClickedUrls string
FROM @"Sample/SearchLog.txt"
USING Extractors.Tsv();
@d =
SELECT DISTINCT Region
FROM @a;
@d1 =
PROCESS @d
PRODUCE
Region string,
Mkt string
USING new USQLApplication_codebehind.MyProcessor();
OUTPUT @d1
TO @"Sample/SearchLogtest.txt"
USING Outputters.Tsv();
Utiliser l'exécution locale et le débogage local de U-SQL pour les utilisateurs de Windows
L’exécution locale de U-SQL teste vos données locales et valide votre script localement, avant que votre code soit publié dans Data Lake Analytics. Vous pouvez utiliser la fonctionnalité de débogage local pour accomplir les tâches suivantes avant que votre code soit soumis à Data Lake Analytics :
- Déboguer votre code-behind C#
- Examiner le code
- Valider votre script localement
La fonctionnalité d’exécution locale et de débogage local fonctionne uniquement dans des environnements Windows, et elle n’est pas prise en charge sur les systèmes d’exploitation MacOS et Linux.
Pour obtenir des instructions sur l’exécution locale et le débogage local, consultez Exécution locale et débogage local U-SQL avec Visual Studio Code.
Connexion à Azure
Avant de pouvoir compiler et exécuter des scripts U-SQL dans Data Lake Analytics, vous devez vous connecter à votre compte Azure.
Pour se connecter à Azure à l'aide d'une commande
Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes.
Entrez ADL: Connexion. Les informations de connexion s’affichent en bas à droite.
Sélectionnez Copier et ouvrir pour ouvrir la page web de connexion . Collez le code dans la zone, puis sélectionnez Continuer.
Suivez les instructions pour vous connecter à partir de la page web. Une fois connecté, le nom de votre compte Azure s’affiche sur la barre d’état dans le coin inférieur gauche de la fenêtre VS Code.
Notes
- Si vous ne vous déconnectez pas, Data Lake Tools vous connectera automatiquement lors de votre prochaine visite.
- Si votre compte a deux facteurs activés, nous vous recommandons d’utiliser l’authentification par téléphone plutôt qu’un code PIN.
Pour vous déconnecter, entrez la commande ADL: Logout.
Pour se connecter à Azure à partir de l’Explorateur
Développez AZURE DATALAKE, sélectionnez Se connecter à Azure, puis suivez les étapes 3 et 4 de la section Pour vous connecter à Azure à l’aide d’une commande.
Vous ne pouvez pas vous déconnecter depuis l’Explorateur. Pour vous déconnecter, reportez-vous à la section Pour vous connecter à Azure à l'aide d'une commande.
Créer un script d’extraction
Vous pouvez créer un script d’extraction pour des fichiers .csv, .tsv et .txt à l’aide de la commande ADL: Create EXTRACT Script ou à partir de l’Explorateur Azure Data Lake.
Pour créer un script d’extraction à l’aide d’une commande
- Sélectionnez Ctrl+Maj+P pour ouvrir la palette de commandes, puis entrez ADL: Create EXTRACT Script.
- Spécifiez le chemin d’accès complet d’un fichier de stockage Azure, puis sélectionnez la touche Entrée.
- Sélectionnez un compte.
- Pour un fichier .txt, sélectionnez un séparateur afin d'extraire le fichier.
Le script d’extraction est généré d’après vos entrées. Pour empêcher un script de détecter les colonnes, choisissez l’une des deux options. Sans intervention de votre part, un seul script sera généré.
Pour créer un script d’extraction à partir de l’Explorateur
Pour créer le script d’extraction, vous pouvez également utiliser le menu contextuel (raccourci) sur le fichier .csv, . tsv ou .txt dans Azure Data Lake Store ou dans le stockage d’objets blob Azure.