Travailler dans l’écosystème Apache Hadoop sur HDInsight à partir d’un PC Windows
Découvrez plus d’informations sur les options de développement et de gestion sur le PC Windows pour travailler dans l’écosystème Apache Hadoop sur HDInsight.
HDInsight est basé sur Apache Hadoop, et sur des composants et des technologies Hadoop open source développées sur Linux. HDInsight 3.4 et ultérieur utilise la distribution Linux Ubuntu comme système d’exploitation sous-jacent pour le cluster. Vous pouvez cependant travailler avec HDInsight à partir d’un client Windows ou de l’environnement de développement Windows.
Utiliser PowerShell pour les tâches de gestion et de déploiement
Azure PowerShell est un environnement de création de scripts qui vous permet de contrôler et d’automatiser le déploiement et la gestion de tâches dans HDInsight à partir de Windows.
Voici des exemples de tâches que vous pouvez effectuer avec PowerShell :
- Créer des clusters à l’aide de PowerShell
- Exécuter des requêtes Apache Hive avec PowerShell
- Gérer des clusters avec PowerShell
Suivez les étapes pour installer et configurer Azure PowerShell afin d’obtenir la dernière version.
Utilitaires que vous pouvez exécuter dans un navigateur
Les utilitaires suivants ont une interface utilisateur web qui s’exécute dans un navigateur :
Azure Cloud Shell est un interpréteur de commandes interactif de lignes de commande qui s’exécute dans votre navigateur et depuis le Portail Azure.
L’ interface utilisateur web d’Apache Ambari est un utilitaire de gestion et de surveillance disponible dans le portail Azure, qui peut être utilisé pour gérer différents types de tâches, comme :
Avant de passer aux exemples qui suivent, installez et essayez Data Lake Tools pour Visual Studio.
Visual Studio et le SDK .NET
Vous pouvez utiliser Visual Studio avec le SDK .NET pour gérer des clusters et développer des applications Big Data. Vous pouvez utiliser d’autres environnements de développement intégrés pour les tâches suivantes, mais les exemples sont présentés dans Visual Studio.
Voici des exemples de tâches que vous pouvez effectuer avec le SDK .NET dans Visual Studio :
- SDK Azure HDInsight pour .NET.
- Exécuter des requêtes Apache Hive avec le SDK .NET
- Utiliser des fonctions C# définies par l’utilisateur avec le streaming Apache Hive et Apache Pig sur Apache Hadoop
Intellij IDEA et IDE Eclipse pour les clusters Spark
Intellij IDEA et l’IDE Eclipse peuvent tous deux être utilisés pour :
- Développer et soumettre une application Scala Spark sur un cluster HDInsight Spark.
- Accéder à des ressources de cluster Spark.
- Développer et exécuter une application Scala Spark localement.
Ces articles expliquent comment :
- IntelliJ IDEA : Créer des applications Apache Spark en utilisant le kit de ressources Azure pour le plug-in Intellij et le SDK Scala.
- IDE Eclipse ou IDE Scala pour Eclipse : Créer des applications Apache Spark et Azure Toolkit pour Eclipse
Notebooks sur Spark pour les scientifiques des données
Les clusters Apache Spark dans HDInsight incluent les notebooks et les noyaux Apache Zeppelin qui peuvent être utilisés avec les notebooks Jupyter.
- Découvrez comment utiliser les noyaux sur des clusters Apache Spark avec des notebooks Jupyter pour tester des applications Spark
- Découvrez comment utiliser des notebooks Apache Zeppelin sur des clusters Apache Spark pour exécuter des tâches Spark
Exécuter sur Windows des outils et des technologies basés sur Linux
Si vous rencontrez une situation où vous devez utiliser un outil ou une technologie disponible uniquement dans Linux, envisagez les options suivantes :
- Bash sur Ubuntu sur Windows 10 fournit un sous-système Linux sur Windows. Bash vous permet d’exécuter directement des utilitaires Linux sans avoir à gérer une installation Linux dédiée. Pour connaître les étapes d’installation, consultez Guide d’installation de sous-systèmes Windows pour Linux sur Windows 10. Vous pouvez également utiliser les autres interpréteurs de commandes Unix.
- Docker pour Windows fournit un accès à de nombreux outils basés sur Linux et peut être exécuté directement à partir de Windows. Par exemple, vous pouvez utiliser Docker pour exécuter le client Beeline pour Hive directement depuis Windows. Vous pouvez également utiliser Docker pour exécuter un notebook Jupyter local et vous connecter à distance à Spark sur HDInsight. Bien démarrer avec Docker pour Windows
- MobaXTerm vous permet de parcourir graphiquement le système de fichiers du cluster via une connexion SSH.
Outils multiplateformes
L’interface de ligne de commande Azure (CLI) est l’interface de ligne de commande multiplateforme de Microsoft pour la gestion de ressources Azure. Pour plus d’informations, consultez Interface de ligne de commande Azure (CLI).
Étapes suivantes
Si vous utilisez des clusters Linux pour la première fois, consultez les articles suivants :