Oefening: Gegevens analyseren

Voltooid

Laten we nu enkele van de principes en technieken voor gegevensanalyse die u in actie hebt geleerd, plaatsen. In dit lab gebruikt u Excel Online om gegevens te analyseren en te visualiseren.

In dit lab analyseert u de citroenadeverkoop van Rosie en maakt u visualisaties om u te helpen inzicht te krijgen in de gegevens.

Voordat u begint

Notitie

Als u de vorige module in dit leertraject hebt voltooid, kunt u de sectie Voordat u begint overslaan.

Als u nog geen Microsoft-account (bijvoorbeeld een hotmail.com, live.comof outlook.com account) hebt, meldt u zich aan voor een account op https://signup.live.com.

De werkmap uploaden naar OneDrive

  1. Navigeer in uw webbrowser naar https://onedrive.live.comen meld u aan met de referenties van uw Microsoft-account. De bestanden en mappen in uw OneDrive worden als volgt weergegeven:

    Screenshot of One Drive My Files folder.

  2. Selecteer Map in het menu + Nieuw om een nieuwe map te maken. U kunt deze naam opgeven, bijvoorbeeld DAT101. Wanneer de nieuwe map wordt weergegeven, selecteert u deze om deze te openen.

  3. Klik in de nieuwe lege map in het menu ⤒ Uploaden op Bestanden. Wanneer u hierom wordt gevraagd, voert u in het vak Bestandsnaam het volgende adres in (u kunt het hier kopiëren en plakken!):

    https://github.com/MicrosoftLearning/mslearn-data-concepts/raw/main/labfiles/Lemonade.xlsx
    

    Klik vervolgens op Openen om het Excel-bestand met de citroenadegegevens van Rosie te uploaden, zoals hier wordt weergegeven:

    Screenshot of uploading a file to One Drive.

    Na een paar seconden wordt het lemonade.xlsx-bestand als volgt weergegeven in uw map:

    Screenshot of Lemonade x l s x file in One Drive.

De werkmap openen in Excel Online

  1. Klik op het bestand Lemonade.xlsx in uw OneDrive-map om het te openen in Excel Online. Wanneer deze wordt geopend, ziet deze er als volgt uit:

    Screenshot of Lemonade workbook in Excel.

  2. De datums in kolom A zijn mogelijk te breed om weer te geven, dus de cellen kunnen bevatten ####### zoals eerder weergegeven. Als u de datums wilt zien, dubbelklikt u op de lijn tussen de kolomkoppen A en B . De datums worden nu weergegeven in de notatie voor de landinstelling die is gekoppeld aan uw Microsoft-account. In de volgende afbeelding worden de datums bijvoorbeeld weergegeven in uk-indeling (dd/MM/jjjj).

    Screenshot of column A widened to show dates.

Oefening 1: Gegevens analyseren met een draaitabel

Draaitabellen zijn een uitstekende manier om gegevens te segmenteren en te dobbelstenen , waarbij numerieke metingen worden samengevat met een of meer dimensies. In deze oefening gebruikt u een draaitabel om de citroenadegegevens weer te geven, samengevoegd op verschillende manieren.

Een draaitabel maken

  1. Als u dit nog niet hebt gedaan, gaat u in uw webbrowser naar https://onedrive.live.comen meldt u zich aan met de referenties van uw Microsoft-account. Open vervolgens de werkmap Lemonade.xlsx in de map waarin u deze hebt geüpload in de sectie Voordat u begint . Uw werkmap moet er als volgt uitzien:

    Screenshot of Lemonade workbook in Excel Online.

  2. Selecteer een cel in de tabel met gegevens en klik op het tabblad Invoegen van het lint op Draaitabel en maak een draaitabel op basis van de tabel met gegevens in een nieuw werkblad. Er wordt een nieuw werkblad toegevoegd met een draaitabel die er als volgt uitziet:

    Screenshot of an empty Pivot Table in Excel Online.

  3. Selecteer Maand in het deelvenster Draaitabelvelden. In Excel wordt maand automatisch toegevoegd aan het gebied Rijen van de draaitabel en worden de maandnamen in chronologische volgorde weergegeven.

  4. Selecteer Verkoop in het deelvenster Draaitabelvelden. In Excel wordt de som van verkoop automatisch toegevoegd aan het gebied Waarden van de draaitabel en wordt het totale aantal (som) van de citroenadeverkoop voor elke maand weergegeven, zoals hier:

    Screenshot of a Pivot Table showing sales summed by month.

    U kunt nu de verkoop per maand zien, dus er waren in juni bijvoorbeeld 1056 verkopen.

Een tweede dimensie toevoegen

  1. Selecteer Day in het deelvenster Draaitabelvelden. In Excel wordt dag automatisch toegevoegd aan het gebied Rijen van de draaitabel en wordt het totale aantal (som) van de citroenadeverkoop voor elke weekdag binnen elke maand weergegeven, zoals:

    Screenshot of a Pivot Table showing sales grouped by month and day.

    U kunt nu de maandelijkse verkoop per weekdag bekijken. Bijvoorbeeld: 57 van de verkopen in januari zijn op een zaterdag gemaakt. U kunt ook maanden uitvouwen/samenvouwen om in te zoomen/ op de niveaus van de hiërarchie.

  2. Sleep in het deelvenster Draaitabelvelden dag van het gebied Rijen naar het gebied Kolommen. In Excel wordt nu de totale verkoop weergegeven voor elke maand op rijen, onderverdeeld per weekdag in kolommen; als volgt:

    Screenshot of a Pivot Table showing sales grouped by month on rows and day on columns.

    U kunt de maandelijkse verkoop per weekdag nog steeds zien, maar u kunt ook de totalen voor elke weekdag in het hele jaar zien (in de onderste rij). Op maandag is bijvoorbeeld een totaal van 1324 verkopen gedaan.

De aggregatie wijzigen

  1. Klik in het deelvenster Draaitabelvelden in het gebied Waarden op de vervolgkeuzepijl naast Som van verkoop en klik vervolgens op Waardeveld Instellingen.

  2. Selecteer in het dialoogvenster Waardeveld Instellingen gemiddelde, zoals hier wordt weergegeven:

    Screenshot of setting field value settings to summarize value by average.

    In de tabel met gegevens wordt nu het gemiddelde aantal verkopen voor elke maand en weekdag weergegeven, zoals hier wordt weergegeven:

    Screenshot of a Pivot Table showing average sales grouped by month on rows and day on columns.

    U kunt nu het gemiddelde aantal verkopen voor elke weekdag per maand zien. Het gemiddelde aantal verkopen op een woensdag in februari is bijvoorbeeld 19,75.

Uitdaging: Draaitabelanalyse

  1. Wijzig de velden in de draaitabel om de volgende informatie te vinden:
    • De totale omzet voor augustus.
    • De temperatuur op de heetste zaterdag in juli.
    • Het laagste aantal flyers verspreid over een dag in november.

Oefening 2: Gegevens visualiseren met grafieken

Het kan vaak eenvoudiger zijn om trends en relaties in gegevens te identificeren door gegevensvisualisaties zoals grafieken te maken.

De verkooptrend voor het jaar weergeven

  1. Wijzig de draaitabel die u in de vorige oefening hebt gemaakt, zodat de datum wordt weergegeven in het gebied Rijen en de som van Verkoop en som van Temperatuur (in die volgorde) in het gebied Waarden, zoals hieronder:

    Screenshot of a Pivot Table showing sales and temperature totals by date.

    Zorg ervoor dat de tabel eruitziet als de tabel die wordt weergegeven voordat u verdergaat (houd er rekening mee dat de datum mogelijk anders is opgemaakt voor uw locatie).

  2. Selecteer met behulp van de volgende instructies alleen de cellen met de datum, de dagelijkse verkoop en de temperatuurwaarden, maar niet de koptekstcellen Datum, Som van Verkoop en Som van de koptekstcellen Temperatuur of de voettekstcellen Eindtotaal:

    • Klik op cel A4, die de datumwaarde voor 1 januari 2017 moet bevatten.
    • Druk vervolgens op Shift+Ctrl+ (SHIFT + ⌘ + op Mac OSX) om de selectie uit te breiden om de verkoop- en temperatuurwaarden op te nemen.
    • Druk vervolgens op Shift+Ctrl+ (SHIFT + ⌘ + op Mac OSX) om de rijen onder de huidige selectie te selecteren.
    • Druk ten slotte op Shift+ om de eindtotalen ongedaan te maken.
  3. Klik op het tabblad Start van het lint op de knop Kopiëren (🗐) om de geselecteerde cellen naar het klembord te kopiëren.

  4. Klik onder het werkblad op de knop Nieuw blad (+) om een nieuw werkblad aan de werkmap toe te voegen.

  5. Selecteer cel A2 in het nieuwe blad en klik op het tabblad Start op de knop Plakken (📋) om de gekopieerde cellen in het nieuwe werkblad te plakken. Mogelijk moet u de kolom A breder maken om de datums weer te geven.

  6. Voeg in de cellen A1 tot C1 de kolomkoppen Datum, Verkoop en Temperatuur toe. Het nieuwe werkblad ziet er als volgt uit:

    Screenshot of a new worksheet showing sales and temperature totals by date.

  7. Selecteer de datum- en verkoopgegevens , inclusief de kopteksten (maar niet de temperatuurgegevens). Klik vervolgens op de tabbladen Invoegen van het lint in de vervolgkeuzelijst Lijn op de eerste opmaak van het lijndiagram. In Excel wordt een lijndiagram als volgt ingevoegd:

    Screenshot of a line chart showing sales by date.

    Houd er rekening mee dat in het lijndiagram dagelijkse schommelingen in de verkoop worden weergegeven, maar de algemene trend lijkt aan te geven dat de verkoop tijdens de zomermaanden hoger en lager is aan het begin en einde van het jaar.

  8. Verwijder de grafiek en selecteer vervolgens alle gegevens en kopteksten, inclusief Temperatuur en voeg een nieuw lijndiagram in. Hiermee voegt u een grafiek als volgt in:

    Screenshot of a line chart showing sales and temperature by date.

    Deze keer bevat de grafiek afzonderlijke reeksen voor Verkoop en Temperatuur. Beide reeksen tonen een vergelijkbaar patroon; het lijkt erop dat de verkoop en temperatuur gedurende de zomermaanden beide stijgen.

  9. Selecteer de grafiek en dubbelklik op de grafiektitel. Vouw vervolgens in het deelvenster Grafiek op het tabblad Opmaak grafiektitel uit en wijzig de grafiektitel in Verkoop en Temperatuur:

    Screenshot of editing the chart title in Excel Online.

  10. Sluit het deelvenster Grafiek .

Omzet per weekdag weergeven

  1. Ga terug naar het werkblad met de draaitabel en wijzig deze om dag weer te geven op rijen met het gemiddelde van omzet. Uw resultaat ziet er als volgt uit, hoewel uw dagen van de week mogelijk niet worden besteld:

    Screenshot of a Pivot Table showing average revenue by day.

  2. Kopieer de dag- en gemiddelde omzetwaarden (maar niet de kopteksten of het totaal) naar het klembord en voeg vervolgens een nieuw werkblad toe, plak de gekopieerde gegevens in cel A2 en voeg als volgt dag- en gemiddelderevenuekoppen toe:

    Screenshot of a new worksheet showing average revenue by day.

  3. Selecteer de kolomkop B en gebruik op het linttabblad Start het $ menu om de omzetgegevens als $ Engels (Verenigde Staten) op te maken, zoals hieronder:

    Screenshot of a worksheet showing average revenue by day formatted as U S currency.

  4. Selecteer alle gegevens, inclusief de kop Day en AverageRevenue , en selecteer op het tabblad Invoegen van het lint in de vervolgkeuzelijst Kolom de eerste kolomdiagramindeling. Er wordt een grafiek zoals deze gemaakt:

    Screenshot of a column chart showing average revenue by day.

    Op het eerste gezicht lijkt deze grafiek een aanzienlijke variatie te tonen tussen de gemiddelde omzet van verschillende dagen van de week; met omzet op donderdagen veel hoger dan op zondag. Kijk echter nauwkeuriger naar de schaal op de verticale as (Y): het verschil is minder dan 30 cent.

  5. Selecteer het kolomdiagram en selecteer op het tabblad Grafiek van het lint in de vervolgkeuzelijst Cirkel de 2D-cirkeldiagramindeling . De grafiek wordt als volgt gewijzigd in een cirkeldiagram:

    Screenshot of a pie chart showing average revenue by day.

    Houd er rekening mee dat de cirkelsegmenten voor elke dag meer of minder dezelfde grootte hebben.

  6. Selecteer het cirkeldiagram en selecteer op het tabblad Grafiek in de vervolgkeuzelijst Gegevenslabels de optie Binneneinde. Hiermee worden de werkelijke gegevensbedragen in de grafiek weergegeven, zoals deze:

    Screenshot of a pie chart showing average revenue by day with data labels.

    Nu is het duidelijker dat er weinig duidelijke variatie is in de gemiddelde omzet voor verschillende dagen van de week.

Verkoop per flyer weergeven

  1. Ga terug naar het werkblad met de draaitabel en wijzig deze om Datum weer te geven in rijen met de som van Flyers en de som van Verkoop, zoals hier:

    Screenshot of a Pivot Table showing flyers and sales totals by date.

  2. Kopieer de datum, flyers en verkoopwaarden (maar niet de kopteksten of totalen) naar een nieuw werkblad en voeg als volgt datum-, flyers- en verkoopkoppen toe:

    Screenshot of a new worksheet showing total flyers and sales by date.

  3. Selecteer de flyers en verkoopgegevens en -headers (maar niet de datums). Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:

    Screenshot of a scatter plot showing total flyers by sales.

    Notitie

    In de grafiek ziet u het aantal flyers dat elke dag wordt verdeeld op de horizontale as (X) en het aantal verkopen per dag op de verticale as (Y). De plot vormt een ongeveer diagonale lijn (met enige variantie), wat een algemene trend aangeeft waarbij het aantal verkopen in overeenstemming is met het aantal flyers dat is verdeeld.

Verkoop per neerslag weergeven

  1. Ga terug naar het werkblad met de draaitabel en wijzig deze om Datum weer te geven in rijen met de som van Neerslag en de som van Verkoop als waarden, zoals:

    Screenshot of a Pivot Table showing rainfall and sales totals by date.

  2. Kopieer de datum-, neerslag- en verkoopwaarden (maar niet de kopteksten of totalen) naar een nieuw werkblad en voeg als volgt datum-, neerslag- en verkoopkoppen toe:

    Screenshot of a new worksheet showing total rainfall and sales by date.

  3. Selecteer de gegevens en headers voor neerslag en verkoop (maar niet de datums). Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:

    Screenshot of a scatter plot showing total rainfall by sales.

    Deze plot lijkt een soort relatie tussen neerslag en verkoop aan te geven, waarbij de verkoop afneemt naarmate de neerslag toeneemt. De lijn die door de diagrammen wordt gevormd, wordt echter gebogen. Dit betekent vaak dat er een niet-lineaire, mogelijk logaritmische relatie is.

  4. Verwijder de grafiek zodat u de lege kolommen D en E kunt zien na de dagelijkse neerslag en verkoopgegevens.

  5. Voeg in D1 de kolomkop LogRainfall toe en selecteer vervolgens cel D2 en voer de volgende formule in het fx-vak boven het werkblad in om het grondtal 10-logboek van de neerslagwaarde te berekenen:

    =log(B2)
    
  6. Kopieer de formule naar de andere cellen in de kolom LogRainfall . De eenvoudigste manier om dit te doen, is door de cel met de formule te selecteren en te dubbelklikken op de kleine vierkante greep () rechtsonder in de geselecteerde cel.

  7. Voeg in E1 de kolomkop LogSales toe en selecteer cel E2 en voer de volgende formule in het fx-vak boven het werkblad in om het basislogboek 10 van de verkoopwaarde te berekenen:

    =log(C2)
    
  8. Kopieer de formule naar de andere cellen in de kolom LogSales .

  9. Selecteer de gegevens en headers van LogRainfall en LogSales. Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:

    Screenshot of a scatter plot showing log rainfall by log sales.

    Houd er rekening mee dat deze plot een lineaire relatie toont tussen het logboek van neerslag en het logboek van de verkoop. Dit is mogelijk nuttig omdat we relaties in de gegevens verkennen, omdat het eenvoudiger is om een lineaire vergelijking te berekenen die betrekking heeft op de verkoop dan om een logaritmische vergelijking te definiëren om hetzelfde te doen.

Uitdaging: Gegevens visualiseren

  1. Maak een kolomdiagram met de som van de flyers die op elke dag van de week zijn verdeeld en noteer de dagen waarop het hoogste en laagste aantal flyers zijn gedistribueerd.
  2. Maak een spreidingsplot met de dagelijkse temperatuur en neerslag en bekijk de duidelijke relatie tussen deze velden.