Oefening: Gegevens analyseren
Laten we nu enkele van de principes en technieken voor gegevensanalyse die u in actie hebt geleerd, plaatsen. In dit lab gebruikt u Excel Online om gegevens te analyseren en te visualiseren.
In dit lab analyseert u de citroenadeverkoop van Rosie en maakt u visualisaties om u te helpen inzicht te krijgen in de gegevens.
Voordat u begint
Notitie
Als u de vorige module in dit leertraject hebt voltooid, kunt u de sectie Voordat u begint overslaan.
Als u nog geen Microsoft-account (bijvoorbeeld een hotmail.com
, live.com
of outlook.com
account) hebt, meldt u zich aan voor een account op https://signup.live.com.
De werkmap uploaden naar OneDrive
Navigeer in uw webbrowser naar https://onedrive.live.comen meld u aan met de referenties van uw Microsoft-account. De bestanden en mappen in uw OneDrive worden als volgt weergegeven:
Selecteer Map in het menu + Nieuw om een nieuwe map te maken. U kunt deze naam opgeven, bijvoorbeeld DAT101. Wanneer de nieuwe map wordt weergegeven, selecteert u deze om deze te openen.
Klik in de nieuwe lege map in het menu ⤒ Uploaden op Bestanden. Wanneer u hierom wordt gevraagd, voert u in het vak Bestandsnaam het volgende adres in (u kunt het hier kopiëren en plakken!):
https://github.com/MicrosoftLearning/mslearn-data-concepts/raw/main/labfiles/Lemonade.xlsx
Klik vervolgens op Openen om het Excel-bestand met de citroenadegegevens van Rosie te uploaden, zoals hier wordt weergegeven:
Na een paar seconden wordt het lemonade.xlsx-bestand als volgt weergegeven in uw map:
De werkmap openen in Excel Online
Klik op het bestand Lemonade.xlsx in uw OneDrive-map om het te openen in Excel Online. Wanneer deze wordt geopend, ziet deze er als volgt uit:
De datums in kolom A zijn mogelijk te breed om weer te geven, dus de cellen kunnen bevatten ####### zoals eerder weergegeven. Als u de datums wilt zien, dubbelklikt u op de lijn tussen de kolomkoppen A en B . De datums worden nu weergegeven in de notatie voor de landinstelling die is gekoppeld aan uw Microsoft-account. In de volgende afbeelding worden de datums bijvoorbeeld weergegeven in uk-indeling (dd/MM/jjjj).
Oefening 1: Gegevens analyseren met een draaitabel
Draaitabellen zijn een uitstekende manier om gegevens te segmenteren en te dobbelstenen , waarbij numerieke metingen worden samengevat met een of meer dimensies. In deze oefening gebruikt u een draaitabel om de citroenadegegevens weer te geven, samengevoegd op verschillende manieren.
Een draaitabel maken
Als u dit nog niet hebt gedaan, gaat u in uw webbrowser naar https://onedrive.live.comen meldt u zich aan met de referenties van uw Microsoft-account. Open vervolgens de werkmap Lemonade.xlsx in de map waarin u deze hebt geüpload in de sectie Voordat u begint . Uw werkmap moet er als volgt uitzien:
Selecteer een cel in de tabel met gegevens en klik op het tabblad Invoegen van het lint op Draaitabel en maak een draaitabel op basis van de tabel met gegevens in een nieuw werkblad. Er wordt een nieuw werkblad toegevoegd met een draaitabel die er als volgt uitziet:
Selecteer Maand in het deelvenster Draaitabelvelden. In Excel wordt maand automatisch toegevoegd aan het gebied Rijen van de draaitabel en worden de maandnamen in chronologische volgorde weergegeven.
Selecteer Verkoop in het deelvenster Draaitabelvelden. In Excel wordt de som van verkoop automatisch toegevoegd aan het gebied Waarden van de draaitabel en wordt het totale aantal (som) van de citroenadeverkoop voor elke maand weergegeven, zoals hier:
U kunt nu de verkoop per maand zien, dus er waren in juni bijvoorbeeld 1056 verkopen.
Een tweede dimensie toevoegen
Selecteer Day in het deelvenster Draaitabelvelden. In Excel wordt dag automatisch toegevoegd aan het gebied Rijen van de draaitabel en wordt het totale aantal (som) van de citroenadeverkoop voor elke weekdag binnen elke maand weergegeven, zoals:
U kunt nu de maandelijkse verkoop per weekdag bekijken. Bijvoorbeeld: 57 van de verkopen in januari zijn op een zaterdag gemaakt. U kunt ook maanden uitvouwen/samenvouwen om in te zoomen/ op de niveaus van de hiërarchie.
Sleep in het deelvenster Draaitabelvelden dag van het gebied Rijen naar het gebied Kolommen. In Excel wordt nu de totale verkoop weergegeven voor elke maand op rijen, onderverdeeld per weekdag in kolommen; als volgt:
U kunt de maandelijkse verkoop per weekdag nog steeds zien, maar u kunt ook de totalen voor elke weekdag in het hele jaar zien (in de onderste rij). Op maandag is bijvoorbeeld een totaal van 1324 verkopen gedaan.
De aggregatie wijzigen
Klik in het deelvenster Draaitabelvelden in het gebied Waarden op de vervolgkeuzepijl naast Som van verkoop en klik vervolgens op Waardeveld Instellingen.
Selecteer in het dialoogvenster Waardeveld Instellingen gemiddelde, zoals hier wordt weergegeven:
In de tabel met gegevens wordt nu het gemiddelde aantal verkopen voor elke maand en weekdag weergegeven, zoals hier wordt weergegeven:
U kunt nu het gemiddelde aantal verkopen voor elke weekdag per maand zien. Het gemiddelde aantal verkopen op een woensdag in februari is bijvoorbeeld 19,75.
Uitdaging: Draaitabelanalyse
- Wijzig de velden in de draaitabel om de volgende informatie te vinden:
- De totale omzet voor augustus.
- De temperatuur op de heetste zaterdag in juli.
- Het laagste aantal flyers verspreid over een dag in november.
Oefening 2: Gegevens visualiseren met grafieken
Het kan vaak eenvoudiger zijn om trends en relaties in gegevens te identificeren door gegevensvisualisaties zoals grafieken te maken.
De verkooptrend voor het jaar weergeven
Wijzig de draaitabel die u in de vorige oefening hebt gemaakt, zodat de datum wordt weergegeven in het gebied Rijen en de som van Verkoop en som van Temperatuur (in die volgorde) in het gebied Waarden, zoals hieronder:
Zorg ervoor dat de tabel eruitziet als de tabel die wordt weergegeven voordat u verdergaat (houd er rekening mee dat de datum mogelijk anders is opgemaakt voor uw locatie).
Selecteer met behulp van de volgende instructies alleen de cellen met de datum, de dagelijkse verkoop en de temperatuurwaarden, maar niet de koptekstcellen Datum, Som van Verkoop en Som van de koptekstcellen Temperatuur of de voettekstcellen Eindtotaal:
- Klik op cel A4, die de datumwaarde voor 1 januari 2017 moet bevatten.
- Druk vervolgens op Shift+Ctrl+⇨ (SHIFT + ⌘ + ⇩ op Mac OSX) om de selectie uit te breiden om de verkoop- en temperatuurwaarden op te nemen.
- Druk vervolgens op Shift+Ctrl+⇩ (SHIFT + ⌘ + ⇩ op Mac OSX) om de rijen onder de huidige selectie te selecteren.
- Druk ten slotte op Shift+ ⇧ om de eindtotalen ongedaan te maken.
Klik op het tabblad Start van het lint op de knop Kopiëren (🗐) om de geselecteerde cellen naar het klembord te kopiëren.
Klik onder het werkblad op de knop Nieuw blad (+) om een nieuw werkblad aan de werkmap toe te voegen.
Selecteer cel A2 in het nieuwe blad en klik op het tabblad Start op de knop Plakken (📋) om de gekopieerde cellen in het nieuwe werkblad te plakken. Mogelijk moet u de kolom A breder maken om de datums weer te geven.
Voeg in de cellen A1 tot C1 de kolomkoppen Datum, Verkoop en Temperatuur toe. Het nieuwe werkblad ziet er als volgt uit:
Selecteer de datum- en verkoopgegevens , inclusief de kopteksten (maar niet de temperatuurgegevens). Klik vervolgens op de tabbladen Invoegen van het lint in de vervolgkeuzelijst Lijn op de eerste opmaak van het lijndiagram. In Excel wordt een lijndiagram als volgt ingevoegd:
Houd er rekening mee dat in het lijndiagram dagelijkse schommelingen in de verkoop worden weergegeven, maar de algemene trend lijkt aan te geven dat de verkoop tijdens de zomermaanden hoger en lager is aan het begin en einde van het jaar.
Verwijder de grafiek en selecteer vervolgens alle gegevens en kopteksten, inclusief Temperatuur en voeg een nieuw lijndiagram in. Hiermee voegt u een grafiek als volgt in:
Deze keer bevat de grafiek afzonderlijke reeksen voor Verkoop en Temperatuur. Beide reeksen tonen een vergelijkbaar patroon; het lijkt erop dat de verkoop en temperatuur gedurende de zomermaanden beide stijgen.
Selecteer de grafiek en dubbelklik op de grafiektitel. Vouw vervolgens in het deelvenster Grafiek op het tabblad Opmaak grafiektitel uit en wijzig de grafiektitel in Verkoop en Temperatuur:
Sluit het deelvenster Grafiek .
Omzet per weekdag weergeven
Ga terug naar het werkblad met de draaitabel en wijzig deze om dag weer te geven op rijen met het gemiddelde van omzet. Uw resultaat ziet er als volgt uit, hoewel uw dagen van de week mogelijk niet worden besteld:
Kopieer de dag- en gemiddelde omzetwaarden (maar niet de kopteksten of het totaal) naar het klembord en voeg vervolgens een nieuw werkblad toe, plak de gekopieerde gegevens in cel A2 en voeg als volgt dag- en gemiddelderevenuekoppen toe:
Selecteer de kolomkop B en gebruik op het linttabblad Start het $ menu om de omzetgegevens als $ Engels (Verenigde Staten) op te maken, zoals hieronder:
Selecteer alle gegevens, inclusief de kop Day en AverageRevenue , en selecteer op het tabblad Invoegen van het lint in de vervolgkeuzelijst Kolom de eerste kolomdiagramindeling. Er wordt een grafiek zoals deze gemaakt:
Op het eerste gezicht lijkt deze grafiek een aanzienlijke variatie te tonen tussen de gemiddelde omzet van verschillende dagen van de week; met omzet op donderdagen veel hoger dan op zondag. Kijk echter nauwkeuriger naar de schaal op de verticale as (Y): het verschil is minder dan 30 cent.
Selecteer het kolomdiagram en selecteer op het tabblad Grafiek van het lint in de vervolgkeuzelijst Cirkel de 2D-cirkeldiagramindeling . De grafiek wordt als volgt gewijzigd in een cirkeldiagram:
Houd er rekening mee dat de cirkelsegmenten voor elke dag meer of minder dezelfde grootte hebben.
Selecteer het cirkeldiagram en selecteer op het tabblad Grafiek in de vervolgkeuzelijst Gegevenslabels de optie Binneneinde. Hiermee worden de werkelijke gegevensbedragen in de grafiek weergegeven, zoals deze:
Nu is het duidelijker dat er weinig duidelijke variatie is in de gemiddelde omzet voor verschillende dagen van de week.
Verkoop per flyer weergeven
Ga terug naar het werkblad met de draaitabel en wijzig deze om Datum weer te geven in rijen met de som van Flyers en de som van Verkoop, zoals hier:
Kopieer de datum, flyers en verkoopwaarden (maar niet de kopteksten of totalen) naar een nieuw werkblad en voeg als volgt datum-, flyers- en verkoopkoppen toe:
Selecteer de flyers en verkoopgegevens en -headers (maar niet de datums). Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:
Notitie
In de grafiek ziet u het aantal flyers dat elke dag wordt verdeeld op de horizontale as (X) en het aantal verkopen per dag op de verticale as (Y). De plot vormt een ongeveer diagonale lijn (met enige variantie), wat een algemene trend aangeeft waarbij het aantal verkopen in overeenstemming is met het aantal flyers dat is verdeeld.
Verkoop per neerslag weergeven
Ga terug naar het werkblad met de draaitabel en wijzig deze om Datum weer te geven in rijen met de som van Neerslag en de som van Verkoop als waarden, zoals:
Kopieer de datum-, neerslag- en verkoopwaarden (maar niet de kopteksten of totalen) naar een nieuw werkblad en voeg als volgt datum-, neerslag- en verkoopkoppen toe:
Selecteer de gegevens en headers voor neerslag en verkoop (maar niet de datums). Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:
Deze plot lijkt een soort relatie tussen neerslag en verkoop aan te geven, waarbij de verkoop afneemt naarmate de neerslag toeneemt. De lijn die door de diagrammen wordt gevormd, wordt echter gebogen. Dit betekent vaak dat er een niet-lineaire, mogelijk logaritmische relatie is.
Verwijder de grafiek zodat u de lege kolommen D en E kunt zien na de dagelijkse neerslag en verkoopgegevens.
Voeg in D1 de kolomkop LogRainfall toe en selecteer vervolgens cel D2 en voer de volgende formule in het fx-vak boven het werkblad in om het grondtal 10-logboek van de neerslagwaarde te berekenen:
=log(B2)
Kopieer de formule naar de andere cellen in de kolom LogRainfall . De eenvoudigste manier om dit te doen, is door de cel met de formule te selecteren en te dubbelklikken op de kleine vierkante greep (▪) rechtsonder in de geselecteerde cel.
Voeg in E1 de kolomkop LogSales toe en selecteer cel E2 en voer de volgende formule in het fx-vak boven het werkblad in om het basislogboek 10 van de verkoopwaarde te berekenen:
=log(C2)
Kopieer de formule naar de andere cellen in de kolom LogSales .
Selecteer de gegevens en headers van LogRainfall en LogSales. Selecteer vervolgens op het tabblad Invoegen in de vervolgkeuzelijst Spreiding de eerste spreidingsplotindeling. Hiermee maakt u een spreidingsdiagram als volgt:
Houd er rekening mee dat deze plot een lineaire relatie toont tussen het logboek van neerslag en het logboek van de verkoop. Dit is mogelijk nuttig omdat we relaties in de gegevens verkennen, omdat het eenvoudiger is om een lineaire vergelijking te berekenen die betrekking heeft op de verkoop dan om een logaritmische vergelijking te definiëren om hetzelfde te doen.
Uitdaging: Gegevens visualiseren
- Maak een kolomdiagram met de som van de flyers die op elke dag van de week zijn verdeeld en noteer de dagen waarop het hoogste en laagste aantal flyers zijn gedistribueerd.
- Maak een spreidingsplot met de dagelijkse temperatuur en neerslag en bekijk de duidelijke relatie tussen deze velden.