Como abrir um Jupyter Notebook no cluster do Spark para HDInsight

Concluído

Depois que o cluster do Spark para HDInsight for criado, você poderá executar trabalhos ou consultas SQL do Spark interativos com relação a um cluster do Apache Spark no Azure HDInsight. Para fazer isso, primeiro crie um notebook. Um notebook é um editor interativo que permite que os engenheiros de dados e os cientistas de dados usem uma variedade de linguagens para interagir com os dados. Isso pode incluir Python, SQL, Scala e outras linguagens. O HDInsight dá suporte a Jupyter, Zeppelin e Livy para interagir com os dados. O nível de interação depende da carga de trabalho que você está gerenciando.

O Apache Spark no HDInsight dá suporte às seguintes cargas de trabalho:

Análise de dados interativa e BI

Você pode usar um notebook para ingerir dados não estruturados/semiestruturados e definir um esquema dentro do notebook. Você pode usar o esquema para criar um modelo em ferramentas como o Power BI, que permitirá que os usuários empresariais executem análise de dados nos dados no notebook

Machine Learning do Spark

Você pode usar um notebook para trabalhar com MLlib, (uma biblioteca de machine learning criada com base no Spark) para criar aplicativos de machine learning

Análise de dados de streaming e em tempo real do Spark

Os clusters Spark no HDInsight dão suporte avançado para criar soluções de análise em tempo real. Embora o Spark já tenha conectores para receber dados de várias fontes, como soquetes TCP, Flume, Twitter, ZeroMQ ou Kafka, o Spark no HDInsight adiciona suporte de primeira classe para a inserção de dados de hubs de evento do Azure.

Criar um notebook Jupyter

Usar as etapas a seguir para criar um Jupyter Notebook no portal do Azure.

  1. No portal, na seção Painéis de cluster, selecione Jupyter Notebook. Em caso de solicitação, insira as credenciais de logon do cluster para o cluster em questão.

    Selecting your Jupyter Notebook in the Azure portal

  2. Selecione Novo > PySpark para criar um notebook.

    A screenshot of a Jupyter Notebook

  3. Um notebook é criado e aberto com o nome Untitled (Untitled.pynb) que permite que você comece a criar trabalhos que estão executando consultas