Travailler dans l’écosystème Apache Hadoop sur HDInsight à partir d’un PC Windows

Article
09/06/2024

Découvrez plus d’informations sur les options de développement et de gestion sur le PC Windows pour travailler dans l’écosystème Apache Hadoop sur HDInsight.

HDInsight est basé sur Apache Hadoop, et sur des composants et des technologies Hadoop open source développées sur Linux. HDInsight 3.4 et ultérieur utilise la distribution Linux Ubuntu comme système d’exploitation sous-jacent pour le cluster. Vous pouvez cependant travailler avec HDInsight à partir d’un client Windows ou de l’environnement de développement Windows.

Utiliser PowerShell pour les tâches de gestion et de déploiement

Azure PowerShell est un environnement de création de scripts qui vous permet de contrôler et d’automatiser le déploiement et la gestion de tâches dans HDInsight à partir de Windows.

Voici des exemples de tâches que vous pouvez effectuer avec PowerShell :

Suivez les étapes pour installer et configurer Azure PowerShell afin d’obtenir la dernière version.

Utilitaires que vous pouvez exécuter dans un navigateur

Les utilitaires suivants ont une interface utilisateur web qui s’exécute dans un navigateur :

Azure Cloud Shell est un interpréteur de commandes interactif de lignes de commande qui s’exécute dans votre navigateur et depuis le Portail Azure.
L’ interface utilisateur web d’Apache Ambari est un utilitaire de gestion et de surveillance disponible dans le portail Azure, qui peut être utilisé pour gérer différents types de tâches, comme :

Avant de passer aux exemples qui suivent, installez et essayez Data Lake Tools pour Visual Studio.

Visual Studio et le SDK .NET

Vous pouvez utiliser Visual Studio avec le SDK .NET pour gérer des clusters et développer des applications Big Data. Vous pouvez utiliser d’autres environnements de développement intégrés pour les tâches suivantes, mais les exemples sont présentés dans Visual Studio.

Voici des exemples de tâches que vous pouvez effectuer avec le SDK .NET dans Visual Studio :

IntelliJ IDEA et IDE Eclipse pour les clusters Spark

IntelliJ IDEA et l’IDE Eclipse peuvent tous deux être utilisés pour :

Développer et soumettre une application Scala Spark sur un cluster HDInsight Spark.
Accéder à des ressources de cluster Spark.
Développer et exécuter une application Scala Spark localement.

Ces articles expliquent comment :

IntelliJ IDEA : Créer des applications Apache Spark en utilisant le plug-in Azure Toolkit for IntelliJ et le SDK Scala.
IDE Eclipse ou IDE Scala pour Eclipse : Créer des applications Apache Spark et Azure Toolkit pour Eclipse

Notebooks sur Spark pour les scientifiques des données

Les clusters Apache Spark dans HDInsight incluent les notebooks et les noyaux Apache Zeppelin qui peuvent être utilisés avec les notebooks Jupyter.

Exécuter sur Windows des outils et des technologies basés sur Linux

Si vous rencontrez une situation où vous devez utiliser un outil ou une technologie disponible uniquement dans Linux, envisagez les options suivantes :

Bash sur Ubuntu sur Windows 10 fournit un sous-système Linux sur Windows. Bash vous permet d’exécuter directement des utilitaires Linux sans avoir à gérer une installation Linux dédiée. Pour connaître les étapes d’installation, consultez Guide d’installation de sous-systèmes Windows pour Linux sur Windows 10. Vous pouvez également utiliser les autres interpréteurs de commandes Unix.
Docker pour Windows fournit un accès à de nombreux outils basés sur Linux et peut être exécuté directement à partir de Windows. Par exemple, vous pouvez utiliser Docker pour exécuter le client Beeline pour Hive directement depuis Windows. Vous pouvez également utiliser Docker pour exécuter un notebook Jupyter local et vous connecter à distance à Spark sur HDInsight. Bien démarrer avec Docker pour Windows
MobaXTerm vous permet de parcourir graphiquement le système de fichiers du cluster via une connexion SSH.

Outils multiplateformes

L’interface de ligne de commande Azure (CLI) est l’interface de ligne de commande multiplateforme de Microsoft pour la gestion de ressources Azure. Pour plus d’informations, consultez Interface de ligne de commande Azure (CLI).

Étapes suivantes

Si vous utilisez des clusters Linux pour la première fois, consultez les articles suivants :

Partage via