Exercício – Carregar dados e criar um gráfico de dispersão
Os jupyter notebooks são compostos por células. Cada célula recebe um dos três tipos:
- Markdown para inserir texto no formato markdown
- Código para inserir código que é executado interativamente
- Raw NBConvert para inserir dados em linha
O código inserido em células de código é executado por um kernel, que fornece um ambiente isolado para a execução do notebook. O popular kernel IPython dá suporte a código escrito em Python, mas dezenas de outros kernels estão disponíveis com suporte para outros idiomas. O Azure Notebooks dá suporte pronto para uso ao Python, ao R e ao F#. Ele também dá suporte à instalação das muitas bibliotecas e dos muitos pacotes que são comumente usados em pesquisas.
Atualmente, o editor de notebook mostra uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes do Python, como NumPy, carregar um par de arquivos de dados da NASA que contêm dados climáticos e criar um gráfico de dispersão dos dados.
Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Notebook do Azure" na própria célula:
Definindo uma célula de markdown
Clique no botão + na barra de ferramentas para adicionar uma nova célula. Verifique se o tipo de célula é Code e insira o seguinte código Python na célula:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Adicionando uma célula de código
Agora clique no botão Executar para executar a célula de código e importar os pacotes especificados nas
import
instruções. Ignore os avisos exibidos enquanto o ambiente é preparado pela primeira vez.Remova os avisos selecionando a célula de código e executando-a novamente.
Executando uma célula de código
Clique em Arquivo no menu na parte superior da página e selecione a opção Carregar no menu de opções. Em seguida, carregue os arquivos chamados5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.
Carregando dados no notebook
Selecione /project como pasta de destino para garantir que seus arquivos persistam. Clique em Iniciar Upload para carregar os arquivos e OK depois que eles forem carregados com êxito.
Selecionando a pasta de destino para dados
Coloque o cursor na célula vazia na parte inferior do notebook. Insira "Importar dados" como o texto e altere o tipo de célula para Markdown.
Agora, adicione uma célula Code e cole o código a seguir.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Clique no botão Executar para executar a célula e use a função NumPy
loadtxt
para carregar os dados que você carregou. Os dados agora estão na memória e podem ser usados pelo aplicativo.Carregando os dados
Coloque o cursor na célula vazia na parte inferior do notebook. Altere o tipo de célula para Markdown e insira "Criar um gráfico de dispersão" como o texto.
Adicione uma célula Code e cole o código a seguir, que usa Matplotlib para criar um gráfico de dispersão.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Clique em Executar para executar a célula e criar um gráfico de dispersão.
Gráfico de dispersão produzido por Matplotlib
O conjunto de dados carregado usa uma média de 30 anos entre 1951 e 1980 para calcular uma temperatura base para esse período e, em seguida, usa temperaturas médias de 5 anos para calcular a diferença entre a média de 5 anos e a média de 30 anos de cada ano. O gráfico de dispersão mostra as diferenças de temperatura anuais.