Trabajo en el ecosistema de Apache Hadoop en HDInsight desde un equipo con Windows

Obtenga información acerca de las opciones de desarrollo y administración en el equipo con Windows para trabajar en el ecosistema de Apache Hadoop en HDInsight.

HDInsight se basa en Apache Hadoop y componentes de Hadoop, tecnologías de código abierto desarrolladas en Linux. HDInsight versión 3.4 y posteriores usan la distribución Ubuntu de Linux como sistema operativo subyacente para el clúster. Sin embargo, puede trabajar con HDInsight desde un cliente Windows o un entorno de desarrollo de Windows.

Uso de PowerShell para tareas de implementación y administración

Azure PowerShell es un entorno de scripting que se puede usar para controlar y automatizar tareas de implementación y administración en HDInsight desde Windows.

Ejemplos de tareas que puede realizar con PowerShell:

Siga los pasos para instalar y configurar Azure PowerShell para obtener la versión más reciente.

Utilidades que puede ejecutar en un explorador

Las utilidades siguientes tienen una interfaz de usuario web que se ejecuta en un explorador:

Antes de ir a los siguientes ejemplos, instale y pruebe Herramientas de Data Lake para Visual Studio.

Visual Studio y el SDK de .NET

Puede usar Visual Studio con el SDK de .NET para administrar clústeres y desarrollar aplicaciones de macrodatos. Puede usar otros IDE para las siguientes tareas, pero los ejemplos se muestran en Visual Studio.

Ejemplos de tareas que puede realizar con el SDK de .NET en Visual Studio:

Intellij IDEA y Eclipse IDE para clústeres de Spark

Tanto Intellij IDEA como Eclipse IDE sirven para:

  • Desarrollar y enviar una aplicación Spark en Scala en un clúster de Spark en HDInsight.
  • Acceder a recursos de clúster de Spark.
  • Desarrollar y ejecutar localmente una aplicación Spark en Scala.

En estos artículos se muestra cómo hacerlo:

Notebooks en Spark para científicos de datos

Los clústeres de Apache Spark en HDInsight incluyen cuadernos y kernels de Apache Zeppelin que se pueden usar con cuadernos de Jupyter Notebook.

Ejecución en Windows de tecnologías y herramientas basadas en Linux

Si se produce una situación en que debe usar una herramienta o tecnología que solo está disponible en Linux, tenga en cuenta las siguientes opciones:

  • Bash en Ubuntu en Windows 10 proporciona un subsistema de Linux en Windows. Bash permite ejecutar utilidades de Linux directamente sin tener que mantener una instalación de Linux dedicada. Consulte la Guía de instalación del subsistema de Windows para Linux para Windows 10 para conocer los pasos de instalación. Otros shells de Unix también funcionarán.
  • Docker para Windows proporciona acceso a muchas herramientas basadas en Linux y se puede ejecutar directamente desde Windows. Por ejemplo, puede usar Docker para ejecutar al cliente Beeline para Hive directamente desde Windows. También puede usar Docker para ejecutar un cuaderno de Jupyter Notebook local y conectarse de forma remota con Spark en HDInsight. Introducción a Docker para Windows
  • MobaXTerm permite examinar gráficamente el sistema de archivos del clúster a través de una conexión SSH.

Herramientas multiplataforma

La interfaz de la línea de comandos (CLI) de Azure es la experiencia de línea de comandos multiplataforma de Microsoft para administrar los recursos de Azure. Para obtener más información, consulte Interfaz de la línea de comandos (CLI) de Azure.

Pasos siguientes

Si no ha trabajado antes en clústeres basados en Linux, consulte los artículos siguientes: