Trabalhar no ecossistema do Apache Hadoop no HDInsight a partir de um PC Windows

Saiba mais sobre as opções de desenvolvimento e gestão no PC Windows para trabalhar no ecossistema do Apache Hadoop no HDInsight.

O HDInsight baseia-se em componentes do Apache Hadoop e do Hadoop, tecnologias open source desenvolvidas no Linux. O HDInsight versão 3.4 e superior utiliza a distribuição do Ubuntu Linux como o SO subjacente para o cluster. No entanto, pode trabalhar com o HDInsight a partir de um cliente Windows ou de um ambiente de desenvolvimento do Windows.

Utilizar o PowerShell para tarefas de implementação e gestão

Azure PowerShell é um ambiente de scripts que pode utilizar para controlar e automatizar tarefas de implementação e gestão no HDInsight a partir do Windows.

Exemplos de tarefas que pode realizar com o PowerShell:

Siga os passos para instalar e configurar Azure PowerShell para obter a versão mais recente.

Utilitários que pode executar num browser

Os seguintes utilitários têm uma IU Web que é executada num browser:

Antes de aceder aos seguintes exemplos, instale e experimente o Data Lake Tools para Visual Studio.

Visual Studio e o SDK .NET

Pode utilizar o Visual Studio com o SDK .NET para gerir clusters e desenvolver aplicações de macrodados. Pode utilizar outros IDEs para as seguintes tarefas, mas são apresentados exemplos no Visual Studio.

Exemplos de tarefas que pode realizar com o SDK .NET no Visual Studio:

Intellij IDEA e Eclipse IDE para clusters do Spark

Tanto o Intellij IDEA como o IDE do Eclipse podem ser utilizados para:

  • Desenvolver e submeter uma aplicação Scala Spark num cluster do HdInsight Spark.
  • Aceder aos recursos do cluster do Spark.
  • Desenvolver e executar uma aplicação Scala Spark localmente.

Estes artigos mostram como:

Blocos de notas no Spark para cientistas de dados

Os clusters do Apache Spark no HDInsight incluem blocos de notas e kernels do Apache Zeppelin que podem ser utilizados com o Jupyter Notebooks.

Executar ferramentas e tecnologias baseadas no Linux no Windows

Se se deparar com uma situação em que tem de utilizar uma ferramenta ou tecnologia que só está disponível no Linux, considere as seguintes opções:

  • O Bash no Ubuntu no Windows 10 fornece um subsistema Linux no Windows. O Bash permite-lhe executar diretamente utilitários do Linux sem ter de manter uma instalação dedicada do Linux. Veja Guia de Instalação do Subsistema do Windows para Linux para obter Windows 10 para obter os passos de instalação. Outras shells Unix também funcionam.
  • O Docker para Windows fornece acesso a muitas ferramentas baseadas em Linux e pode ser executado diretamente a partir do Windows. Por exemplo, pode utilizar o Docker para executar o cliente Beeline para o Hive diretamente a partir do Windows. Também pode utilizar o Docker para executar uma Jupyter Notebook local e ligar remotamente ao Spark no HDInsight. Introdução ao Docker para Windows
  • O MobaXTerm permite-lhe navegar graficamente no sistema de ficheiros de cluster através de uma ligação SSH.

Ferramentas multiplataformas

A interface de linha de comandos (CLI) do Azure é a experiência de linha de comandos entre plataformas da Microsoft para gerir os recursos do Azure. Para obter mais informações, veja Interface de Command-Line (CLI) do Azure.

Passos seguintes

Se não estiver familiarizado com os clusters baseados no Linux, veja os seguintes artigos: