Oefening: gegevens uploaden en spreidingsplot maken

Voltooid

Jupyter-notebooks bestaan uit cellen. Aan elke cel wordt een van volgende drie typen toegewezen:

  • Markdown voor het invoeren van tekst in Markdown-indeling
  • Code voor het invoeren van code die interactief wordt uitgevoerd
  • Onbewerkte NBConvert voor het invoeren van gegevens in de tekst

Code die in codecellen wordt ingevoerd, wordt uitgevoerd door een kernel, die een geïsoleerde omgeving biedt waarin de notebook draait. De populaire IPython-kernel ondersteunt code die is geschreven in Python, maar er zijn tientallen andere kernels beschikbaar die andere talen ondersteunen. Azure-notebooks bieden standaard ondersteuning voor Python, R en F#. Ze bieden ook ondersteuning voor de installatie van diverse andere pakketten en bibliotheken die vaak voor onderzoeksdoeleinden worden gebruikt.

De notebookeditor bevat momenteel een lege cel. In deze oefening voegt u inhoud toe aan die cel en voegt u andere cellen toe om Python-pakketten zoals NumPy te importeren, een paar NASA-gegevensbestanden met klimaatgegevens te laden en een spreidingsplot van de gegevens te maken.

  1. Stel in de eerste cel het celtype in op Markdown en voer de 'Azure Notebook Klimaatveranderingsanalyse' in in de cel zelf:

    Een Markdown-cel definiëren.

    Een Markdown-cel definiëren

  2. Klik op de knop + op de werkbalk om een nieuwe cel toe te voegen. Zorg ervoor dat het celtype Code is en voer vervolgens de volgende Python-code in de cel in:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Een codecel toevoegen.

    Een codecel toevoegen

  3. Klik nu op de knop Uitvoeren om de codecel uit te voeren en de pakketten te importeren die zijn opgegeven in de import instructies. Eventuele waarschuwingen kunnen worden genegeerd, aangezien de omgeving voor het eerst wordt voorbereid.

    U kunt de waarschuwingen verwijderen door de codecel te selecteren en deze opnieuw uit te voeren.

    Een codecel uitvoeren.

    Een codecel uitvoeren

  4. Klik op Bestand in het menu boven aan de pagina en selecteer Uploaden in de vervolgkeuzelijst. Upload vervolgens de bestanden met de naam 5-year-mean-1951-1980.csv en 5-year-mean-1882-2014.csv.

    Gegevens uploaden naar het notebook.

    Gegevens uploaden naar het notebook

  5. Selecteer /project als doelmap om ervoor te zorgen dat uw bestanden behouden blijven. Klik op Uploaden starten om de bestanden te uploaden en OK zodra ze zijn geüpload.

    Doelmap voor gegevens selecteren.

    Doelmap voor gegevens selecteren

  6. Plaats de muisaanwijzer in de lege cel onderaan het notebook. Voer 'Gegevens importeren' in als de tekst en wijzig het celtype in Markdown.

  7. Voeg nu een codecel toe en plak de volgende code.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Klik op de knop Uitvoeren om de cel uit te voeren en gebruik de functie NumPy loadtxt om de gegevens te laden die u hebt geüpload. De gegevens staan nu in het geheugen en kunnen worden gebruikt door de toepassing.

    De gegevens laden.

    De gegevens laden

  9. Plaats de muisaanwijzer in de lege cel onderaan het notebook. Wijzig het celtype in Markdown en voer 'Een spreidingsplot maken' in als de tekst.

  10. Voeg een codecel toe en plak de volgende code, die Matplotlib gebruikt om een spreidingsplot te maken.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Klik op Uitvoeren om de cel uit te voeren en een spreidingsplot te maken.

    Spreidingsplot geproduceerd door Matplotlib.

    Spreidingsplot geproduceerd door Matplotlib

De gegevensset die u hebt geladen gebruikt een gemiddelde over een periode van dertig jaar, tussen 1951 en 1980, om een referentietemperatuur voor die periode te berekenen. Vervolgens wordt de gemiddelde temperatuur over een periode van vijf jaar gebruikt om het verschil tussen het gemiddelde over 5 jaar en het gemiddelde over 30 jaar voor elk jaar te berekenen. De spreidingsplot toont de jaarlijkse temperatuurverschillen.