Esercizio - Caricare i dati e creare un grafico a dispersione

Completato

I notebook Jupyter sono costituiti da celle. A ogni cella viene assegnato uno dei tre tipi seguenti:

  • Markdown per l'immissione di testo in formato markdown
  • Code (Codice) per l'immissione di codice eseguito in modo interattivo
  • Raw NBConvert (NBConvert non elaborato) per l'immissione di dati inline

Il codice immesso all'interno di celle di tipo Code (Codice) viene eseguito da un kernel, che costituisce un ambiente isolato all'interno del quale eseguire il notebook. Il kernel IPython, di ampia diffusione, supporta codice scritto in Python, ma sono disponibili numerosi altri kernel che supportano altri linguaggi. Azure Notebooks supporta Python, R e F# per impostazione predefinita, oltre all'installazione dei molteplici pacchetti e delle numerose librerie comunemente usati nella ricerca.

L'editor di notebook visualizza attualmente una cella vuota. In questo esercizio si aggiungerà contenuto a questa cella e si aggiungeranno altre celle per importare pacchetti Python, ad esempio NumPy, caricare due file di dati NASA contenenti dati sul clima e creare un grafico a dispersione da questi dati.

  1. Nella prima cella impostare il tipo Markdown e immettere "Azure Notebook Climate Change Analysis" (Analisi del cambiamento del clima in Azure Notebook):

    Defining a markdown cell.

    Definizione di una cella di tipo Markdown

  2. Fare clic sul pulsante + sulla barra degli strumenti per aggiungere una nuova cella. Assicurarsi che il tipo della cella corrisponda a Code (Codice) e quindi immettere il codice Python seguente all'interno di essa:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adding a code cell.

    Aggiunta di una cella di codice

  3. Fare ora clic sul pulsante Run (Esegui) per eseguire la cella di codice e importare i pacchetti specificati nelle istruzioni import. Ignorare gli avvisi visualizzati, dato che si tratta della prima preparazione dell'ambiente.

    È possibile rimuovere gli avvisi selezionando la cella di codice ed eseguendola di nuovo.

    Running a code cell.

    Esecuzione di una cella di codice

  4. Fare clic su File nel menu nella parte superiore della pagina e selezionare Upload dal menu a discesa. Eseguire quindi l'upload dei file denominati 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.

    Uploading data to the notebook.

    Upload dei dati nel notebook

  5. Selezionare /project in Destination Folder (Cartella di destinazione) per assicurarsi di salvare in modo permanente i file. Fare clic su Start Upload (Avvia upload) per eseguire l'upload dei file e fare clic su OK al termine dell'upload.

    Selecting destination folder for data.

    Selezione della cartella di destinazione per i dati

  6. Posizionare il cursore nella cella vuota nella parte inferiore del notebook. Immettere "Import data" (Importa dati) come testo e modificare il tipo della cella in Markdown.

  7. Aggiungere ora una cella Code (Codice) e incollare il codice seguente.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Fare clic sul pulsante Run (Esegui) per eseguire la cella e usare la funzione loadtxt di NumPy per caricare i dati di cui si è eseguito l'upload in precedenza. I dati sono ora in memoria e possono essere usati dall'applicazione.

    Loading the data.

    Caricamento dei dati

  9. Posizionare il cursore nella cella vuota nella parte inferiore del notebook. Modificare il tipo di cella in Markdown e immettere "Create a scatter plot" (Crea un grafico a dispersione) come testo.

  10. Aggiungere una cella Code (Codice) e incollare all'interno di questa il codice seguente, che usa Matplotlib per creare un grafico a dispersione.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Fare clic su Run (Esegui) per eseguire la cella e creare un grafico a dispersione.

    Scatter plot produced by Matplotlib.

    Grafico a dispersione prodotto da Matplotlib

Il set di dati caricato usa una media di 30 anni tra il 1951 e il 1980 per calcolare la temperatura di base di tale periodo e quindi usa le temperature medie di periodi di 5 anni per calcolare la differenza tra la media dei 5 anni e la media dei 30 anni per ogni anno. Il grafico a dispersione mostra le differenze delle temperature annuali.