Übung: Erstellen eines Azure-Notebooks und Importieren von Daten

Abgeschlossen

Zunächst erstellen wir ein neues Azure-Notebook. Azure-Notebooks sind in Projekten enthalten, die verwandte Notebooks gruppieren. In dieser Lerneinheit erstellen Sie ein neues Projekt und dann darin ein Notebook.

  1. Navigieren Sie in Ihrem Browser zu https://notebooks.azure.com.

  2. Melden Sie sich mit Ihrem Microsoft-Konto an.

  3. Klicken Sie im Menü am oberen Rand der Seite auf My Projects (Meine Projekte).

  4. Klicken Sie oben rechts auf der Seite „My Projects“ (Meine Projekte) auf + New Project (+ Neues Projekt).

  5. Erstellen Sie ein neues Projekt mit dem Namen „ML Notebooks“ oder einem ähnlichen Namen. Sie können das Kontrollkästchen bei „Public“ (Öffentlich) deaktivieren. Wenn das Projekt öffentlich ist, können Sie jedoch das darin enthaltene Notebook über Links, soziale Netzwerke oder E-Mail mit anderen teilen. Wenn Sie sich nicht sicher sind, was Sie festlegen sollen, können Sie den Freigabestatus eines Projekts auch später noch problemlos ändern.

    Creating a project.

    Erstellen eines Projekts

  6. Klicken Sie auf + New (+Neu) und dann auf im Menü Notebook, um dem Projekt ein Notebook hinzuzufügen.

    Adding a notebook to the project.

    Hinzufügen eines Notebooks zum Projekt

  7. Benennen Sie das Notebook z.B. mit „On-Time Flight Arrivals.ipynb“, und wählen Sie Python 3.6 als Sprache aus. Dadurch wird ein Notebook mit einem Python 3.6-Kernel erstellt, mit dem Sie Python-Code ausführen können. Eine der Stärken von Azure-Notebooks ist die Tatsache, dass Sie verschiedene Sprachen verwenden können, wenn Sie verschiedene Kernels auswählen.

    Creating a notebook.

    Erstellen eines Notebooks

    Die Erweiterung .ipynb steht für „IPython-Notebook“. Jupyter Notebooks waren ursprünglich als IPython-Notebooks (Interaktives Python) bekannt und haben ausschließlich Python als Programmiersprache unterstützt. Der Name Jupyter ist eine Kombination aus den Hauptprogrammiersprachen, die von Jupyter unterstützt werden: Julia, Python und R.

  8. Klicken Sie auf das Notebook, um dieses zu bearbeiten.

    Opening the notebook.

    Öffnen des Notebooks

Beim Arbeiten mit Azure Notebooks können Sie zusätzliche Projekte und Notebooks erstellen. Sie können Notebooks ohne Vorlage erstellen oder vorhandene Notebooks hochladen.

Jupyter-Notebooks sind hochgradig interaktiv. Sie können ausführbaren Code enthalten und sind deshalb die ideale Plattform zum Anpassen von Daten und Erstellen prädiktiver Modelle.

  1. Geben Sie den folgenden Befehl in die erste Zelle des Notebooks ein:

    !curl https://topcs.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    Tipp

    curl ist ein Bash-Befehl. Sie können Bash-Befehle in einem Jupyter-Notebook ausführen, indem Sie ihnen ein Ausrufezeichen voranstellen. Dieser Befehl lädt eine CSV-Datei aus Azure Blob Storage herunter und speichert sie unter dem Namen flightdata.csv.

  2. Klicken Sie auf die Schaltfläche Ausführen, um den curl-Befehl auszuführen.

    Importing a dataset.

    Importieren eines Datasets

  3. Geben Sie in der zweiten Zelle des Notebooks den folgenden Python-Code ein, um flightdata.csv zu laden, damit eine Pandas-Datenmatrix zu erstellen und die ersten fünf Zeilen anzuzeigen.

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. Klicken Sie auf die Schaltfläche Ausführen, um den Code auszuführen. Die Ausgabe sollte in etwa wie die unten stehende Ausgabe aussehen.

    Loading the dataset.

    Laden des Datasets

    Die erstellte Datenmatrix enthält Informationen zur Pünktlichkeit von Flügen einer großen US-amerikanischen Fluggesellschaft. Sie enthält mehr als 11.000 Zeilen und 26 Spalten. (In der Ausgabe steht „5 rows“ (5 Zeilen), weil die Funktion head der Datenmatrix nur die ersten fünf Zeilen zurückgibt.) Jede Zeile steht für einen Flug und enthält Informationen zum Abflug- und Zielflughafen, der geplanten Abflugzeit und zur Pünktlichkeit des Fluges. Später in diesem Modul werden wir uns die Daten noch genauer ansehen.

  5. Verwenden Sie den Befehl File>Save and Checkpoint (Datei > Speichern und Prüfpunkt), um das Notebook zu speichern.

Scrollen Sie mit der horizontalen Scrollleiste nach links und rechts, um sich alle Spalten des Datasets anzusehen. Wie viele Spalten enthält das Dataset? Können Sie anhand der Spaltennamen erkennen, wofür sie stehen?