Übung: Hochladen von Daten und Erstellen eines Punktdiagramms

Abgeschlossen

Jupyter-Notebooks bestehen aus Zellen. Jeder Zelle wird einer von drei Typen zugewiesen:

  • Markdown für die Eingabe von Text im Format Markdown
  • Code für die Eingabe von Code, der interaktiv ausgeführt wird
  • Unformatierte NBConvert für die Inlineeingabe von Daten

Code, der in Codezellen eingegeben wird, wird von einem Kernel ausgeführt, der eine isolierte Umgebung für die Ausführung des Notebooks bereitstellt. Der beliebte IPython-Kernel unterstützt Code, der in Python geschrieben wurde, aber es sind Dutzende andere Kernel verfügbar, die andere Sprachen unterstützen. Azure-Notebooks unterstützen sofort Python, R und F#. Sie unterstützen auch die Installation der vielen Pakete und Bibliotheken, die häufig in der Forschung verwendet werden.

Der Notebook-Editor zeigt aktuell eine leere Zelle an. In dieser Übung fügen Sie dieser Zelle Inhalte hinzu. Außerdem fügen Sie weitere Zellen für den Import von Python-Paketen wie NumPy hinzu, laden ein Paar NASA-Datendateien mit Klimadaten und erstellen aus den Daten ein Punktdiagramm.

  1. Legen Sie den Zellentyp in der ersten Zelle auf Markdown fest, und geben Sie in die Zelle „Azure Notebook Climate Change Analysis“ (Azure-Notebook Klimawandelanalyse) ein:

    Defining a markdown cell.

    Definieren einer Markdownzelle

  2. Klicken Sie in der Symbolleiste auf die Schaltfläche +, um eine neue Zelle hinzuzufügen. Stellen Sie sicher, dass der Zellentyp Code ist, und geben Sie dann den folgenden Python-Code in die Zelle ein:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adding a code cell.

    Hinzufügen einer Codezelle

  3. Klicken Sie nun auf die Schaltfläche Ausführen, um die Codezelle auszuführen und die in den import-Anweisungen angegebenen Pakete zu importieren. Ignorieren Sie alle Warnungen, die angezeigt werden, wenn die Umgebung zum ersten Mal vorbereitet wird.

    Sie können die Warnungen entfernen, indem Sie die Codezelle auswählen und erneut ausführen.

    Running a code cell.

    Ausführen einer Codezelle

  4. Klicken Sie im Menü oben auf der Seite auf Datei, und wählen Sie im Dropdownmenü Upload (Hochladen) aus. Laden Sie dann die Dateien 5-year-mean-1951-1980.csv und 5-year-mean-1882-2014.csv hoch.

    Uploading data to the notebook.

    Hochladen von Daten in das Notebook

  5. Wählen Sie /project (/Projekt) als Zielordner aus, um Ihre Dateien dauerhaft bereitzustellen. Klicken Sie zum Hochladen der Dateien auf Upload starten und nach dem erfolgreichen Hochladen auf OK.

    Selecting destination folder for data.

    Auswählen des Zielordners für die Daten

  6. Platzieren Sie den Cursor in die leere Zelle unten im Notebook. Geben Sie als Text „Import data“ (Daten importieren) ein, und ändern Sie den Zellentyp in Markdown.

  7. Fügen Sie nun eine Codezelle hinzu, und fügen Sie den folgenden Code ein.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Klicken Sie auf die Schaltfläche Ausführen, um die Zelle auszuführen, und verwenden Sie die Funktion loadtxt von NumPy, um die hochgeladenen Daten zu laden. Die Daten befinden sich nun im Arbeitsspeicher und können von der Anwendung verwendet werden.

    Loading the data.

    Laden der Daten

  9. Platzieren Sie den Cursor in die leere Zelle unten im Notebook. Ändern Sie den Zellentyp in Markdown, und geben Sie als Text „Create a scatter plot“ (Punktdiagramm erstellen) ein.

  10. Fügen Sie eine Zelle vom Typ Code hinzu, und fügen Sie den folgenden Code ein, in dem Matplotlib zum Erstellen eines Punktdiagramms verwendet wird.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Klicken Sie auf Ausführen, um die Zelle auszuführen und ein Punktdiagramm zu erstellen.

    Scatter plot produced by Matplotlib.

    Von Matplotlib erzeugtes Punktdiagramm

In dem Dataset, das Sie geladen haben, wird ein Mittelwert für einen Zeitraum von 30 Jahren von 1951 bis 1980 verwendet, um eine Basistemperatur für diesen Zeitraum zu berechnen. Dann werden Durchschnittstemperaturen aus einem Zeitraum von 5 Jahren verwendet, um den Unterschied zwischen dem 5-Jahre-Mittelwert und dem 30-Jahre-Mittelwert für jedes Jahr zu berechnen. Das Punktdiagramm stellt die jährlichen Temperaturunterschiede dar.