Exercício – Carregar dados e criar um gráfico de dispersão

Concluído

Os jupyter notebooks são compostos por células. Cada célula recebe um dos três tipos:

  • Markdown para inserir texto no formato markdown
  • Código para inserir código que é executado interativamente
  • Raw NBConvert para inserir dados em linha

O código inserido em células de código é executado por um kernel, que fornece um ambiente isolado para a execução do notebook. O popular kernel IPython dá suporte a código escrito em Python, mas dezenas de outros kernels estão disponíveis com suporte para outros idiomas. O Azure Notebooks dá suporte pronto para uso ao Python, ao R e ao F#. Ele também dá suporte à instalação das muitas bibliotecas e dos muitos pacotes que são comumente usados em pesquisas.

Atualmente, o editor de notebook mostra uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes do Python, como NumPy, carregar um par de arquivos de dados da NASA que contêm dados climáticos e criar um gráfico de dispersão dos dados.

  1. Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Notebook do Azure" na própria célula:

    Definindo uma célula de markdown.

    Definindo uma célula de markdown

  2. Clique no botão + na barra de ferramentas para adicionar uma nova célula. Verifique se o tipo de célula é Code e insira o seguinte código Python na célula:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adicionando uma célula de código.

    Adicionando uma célula de código

  3. Agora clique no botão Executar para executar a célula de código e importar os pacotes especificados nas import instruções. Ignore os avisos exibidos enquanto o ambiente é preparado pela primeira vez.

    Remova os avisos selecionando a célula de código e executando-a novamente.

    Executando uma célula de código.

    Executando uma célula de código

  4. Clique em Arquivo no menu na parte superior da página e selecione a opção Carregar no menu de opções. Em seguida, carregue os arquivos chamados5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.

    Carregando dados no notebook.

    Carregando dados no notebook

  5. Selecione /project como pasta de destino para garantir que seus arquivos persistam. Clique em Iniciar Upload para carregar os arquivos e OK depois que eles forem carregados com êxito.

    Selecionando a pasta de destino para dados.

    Selecionando a pasta de destino para dados

  6. Coloque o cursor na célula vazia na parte inferior do notebook. Insira "Importar dados" como o texto e altere o tipo de célula para Markdown.

  7. Agora, adicione uma célula Code e cole o código a seguir.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Clique no botão Executar para executar a célula e use a função NumPy loadtxt para carregar os dados que você carregou. Os dados agora estão na memória e podem ser usados pelo aplicativo.

    Carregando os dados.

    Carregando os dados

  9. Coloque o cursor na célula vazia na parte inferior do notebook. Altere o tipo de célula para Markdown e insira "Criar um gráfico de dispersão" como o texto.

  10. Adicione uma célula Code e cole o código a seguir, que usa Matplotlib para criar um gráfico de dispersão.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Clique em Executar para executar a célula e criar um gráfico de dispersão.

    Gráfico de dispersão produzido por Matplotlib.

    Gráfico de dispersão produzido por Matplotlib

O conjunto de dados carregado usa uma média de 30 anos entre 1951 e 1980 para calcular uma temperatura base para esse período e, em seguida, usa temperaturas médias de 5 anos para calcular a diferença entre a média de 5 anos e a média de 30 anos de cada ano. O gráfico de dispersão mostra as diferenças de temperatura anuais.