Compartilhar via


Trabalhar no ecossistema Apache Hadoop no HDInsight por meio de um computador com Windows

Conheça as opções de desenvolvimento e de gerenciamento no computador com Windows para trabalhar no ecossistema Apache Hadoop no HDInsight.

O HDInsight tem base em componentes do Apache Hadoop e do Hadoop, tecnologias de código-fonte aberto desenvolvidas no Linux. O HDInsight versão 3.4 ou superior usa a distribuição do Ubuntu Linux como o SO subjacente para o cluster. No entanto, você pode trabalhar com o HDInsight de um cliente Windows ou ambiente de desenvolvimento do Windows.

Usar o PowerShell para as tarefas de implantação e gerenciamento

O Azure PowerShell é um ambiente de geração de script que você pode usar para controlar e automatizar as tarefas de implantação e gerenciamento no HDInsight no Windows.

Exemplos de tarefas que você pode fazer com o PowerShell:

Execute as etapas para instalar e configurar o Azure Powershell a fim de obter a versão mais recente.

Utilitários que você pode executar em um navegador

Os utilitários a seguir tem uma interface de usuário na Web que é executada em um navegador Web:

Antes de passar para os exemplos a seguir, instale e experimente o Data Lake Tools para Visual Studio.

Visual Studio e o SDK do .NET

Você pode usar o Visual Studio com o SDK do .NET para gerenciar clusters e desenvolver aplicativos de Big Data. Você pode usar outros IDEs para as seguintes tarefas, mas os exemplos são mostrados no Visual Studio.

Exemplos de tarefas que podem ser realizadas com o SDK do .NET no Visual Studio:

IDEA do IntelliJ e IDE do Eclipse para clusters Spark

IDEA do Intellij e o IDE do Eclipse podem ser usados para:

  • Desenvolver e enviar um aplicativo Scala Spark em um cluster HDInsight Spark.
  • Acessar os recursos em cluster Spark.
  • Desenvolver e executar um aplicativo Scala Spark localmente.

Esses artigos mostram como:

Notebooks no Spark para os cientistas de dados

Os clusters do Apache Spark no HDInsight incluem notebooks e kernels do Apache Zeppelin que podem ser usados com os notebooks do Jupyter.

Executar ferramentas e tecnologias baseadas em Linux no Windows

Se houver uma situação em que você precise usar uma ferramenta ou tecnologia disponível apenas no Linux, considere as seguintes opções:

  • O Bash no Ubuntu no Windows 10 fornece um subsistema Linux no Windows. O Bash permite que você execute diretamente os utilitários Linux sem a necessidade de manter uma instalação dedicada do Linux. Confira o Guia de instalação do subsistema do Windows para Linux para o Windows 10 para conhecer as etapas de instalação. Outros shells do Unix também funcionarão.
  • Docker para Windows fornece acesso às muitas ferramentas baseadas em Linux e pode ser executado diretamente do Windows. Por exemplo, você pode usar o Docker para executar o cliente Beeline para diretamente do Windows. Você pode também usar o Docker para executar um Jupyter Notebook local e conectar-se remotamente com o Spark no HDInsight. Introdução ao Docker para Windows
  • MobaXTerm permite que você navegue graficamente no sistema de arquivos de cluster em uma conexão SSH.

Ferramentas multiplataforma

A CLI (interface de linha de comando) do Azure é a experiência da linha de comando de plataforma cruzada da Microsoft para gerenciar os recursos do Azure. Para obter mais informações, confira CLI (interface de linha de comando) do Azure.

Próximas etapas

Se você não estiver acostumado a trabalhar com clusters baseados em Linux, consulte os artigos a seguir: