Profielgegevens in Power BI

Voltooid

Het profileren van gegevens gaat over het bestuderen van de nuances in de gegevens: het bepalen van afwijkingen, het onderzoeken en ontwikkelen van de onderliggende gegevensstructuren en het uitvoeren van query's op gegevensstatistieken zoals aantal rijen, waardedistributies, minimum- en maximumwaarden, gemiddelden, enzovoort. Dit is een belangrijk concept omdat u de gegevens hiermee kunt vormgeven en ordenen, zodat u eenvoudig met de gegevens kunt werken en de distributie van de gegevens kunt identificeren. Werken met gegevens in de front-end, om rapportelementen te maken, kost daardoor vrijwel geen moeite.

Stel dat u rapporten ontwikkelt voor het verkoopteam in uw organisatie.  U weet niet zeker hoe de gegevens zijn gestructureerd en opgenomen in de tabellen, dus u wilt de gegevens achter de schermen profileren voordat u begint met het ontwikkelen van de visuals.  Power BI bevat een inherente functionaliteit die deze taken gebruikersvriendelijk en duidelijk maakt.

Gegevensstructuren onderzoeken

Voordat u begint met het onderzoeken van de gegevens in de Power Query-editor, moet u eerst iets weten over de onderliggende gegevensstructuren waarin gegevens zijn geordend. U kunt het huidige semantische model bekijken op het tabblad Model op Power BI Desktop.

voorbeeldgegevensstructuur en de balk op het lint

Op het tabblad Model kunt u specifieke kolom- en tabeleigenschappen bewerken door een tabel of kolommen te selecteren en u kunt de gegevens transformeren met de knop Gegevens transformeren, waarmee u naar Power Query-editor gaat. Daarnaast kunt u relaties tussen verschillende tabellen beheren, maken, bewerken en verwijderen met behulp van Relaties beheren op het lint.

Gegevensafwijkingen en gegevensstatistieken zoeken

Nadat u verbinding hebt gemaakt met een gegevensbron en Gegevens transformeren hebt geselecteerd, gaat u naar de Power Query-editor, waar u kunt bepalen of er afwijkingen bestaan binnen uw gegevens.  Gegevensafwijkingen zijn uitbijters binnen uw gegevens. Met het bepalen wat die afwijkingen zijn, kunt u normale distributie van uw gegevens eenvoudiger identificeren en vaststellen of er specifieke gegevenspunten bestaan die verder moeten worden onderzocht. Power Query-editor bepaalt gegevensafwijkingen met behulp van de functie Kolomdistributie.

Selecteer Weergave op het lint en onder Gegevensvoorbeeld kunt u kiezen uit een aantal opties. Als u meer wilt weten over gegevensafwijkingen en statistieken, selecteert u de opties Kolomdistributie, Kolomkwaliteit en Kolomprofiel .  In de volgende afbeelding ziet u de statistieken die worden weergegeven.

Kolomkwaliteit en Kolomverdeling worden weergegeven in de grafieken boven de kolommen met gegevens. Kolomkwaliteit toont de percentages gegevens die geldig, foutloos en leeg zijn. In het ideale geval is 100% van de gegevens geldig.

Afwijkingen en gegevensstatistieken voor een kolom met gegevens

Notitie

Standaard onderzoekt Power Query de eerste 1000 rijen van uw gegevensset. Als u dit wilt wijzigen, selecteert u de profileringsstatus op de statusbalk, en selecteert u Kolomprofilering op basis van de gehele gegevensset. ]

Bij Kolomdistributie ziet u de distributie van de gegevens binnen de kolom en de aantallen afzonderlijke en unieke waarden. Beide items vertellen u meer over de gegevensaantallen. Afzonderlijke waarden zijn alle verschillende waarden in een kolom, inclusief duplicaten en null-waarden, terwijl unieke waarden geen duplicaten of null-waarden bevatten. Daarom vertelt distinct in deze tabel u het totale aantal waarden dat aanwezig is, terwijl uniek aangeeft hoeveel van deze waarden slechts één keer worden weergegeven.

Met kolomprofiel krijgt u meer inzicht in de statistieken in de kolommen voor de eerste 1000 rijen met gegevens. Deze kolom biedt een aantal verschillende waarden, waaronder het aantal rijen. Dit is belangrijk wanneer u controleert of uw gegevens zijn geïmporteerd. Als uw oorspronkelijke database bijvoorbeeld 100 rijen bevatte, kunt u dit aantal rijen gebruiken om te controleren of die 100 rijen daadwerkelijk goed zijn geïmporteerd. Daarnaast geeft dit aantal rijen aan hoeveel rijen power BI heeft beschouwd als uitbijters, lege rijen en tekenreeksen, en de min en max, waarmee u de kleinste en grootste waarde in een kolom kunt zien. Dit onderscheid is met name belangrijk in het geval van numerieke gegevens, omdat het u onmiddellijk op de hoogte zal stellen als u een maximumwaarde hebt die hoger is dan wat uw bedrijf als een 'maximum' identificeert. Deze waarde vraagt uw aandacht om deze waarden, wat betekent dat u zich vervolgens kunt richten op uw inspanningen bij het dieper ingaan op de gegevens.  In het geval waar gegevens zich in de tekstkolom bevonden, zoals u in de vorige afbeelding hebt gezien, is de minimumwaarde de eerste waarde en is de maximumwaarde de laatste waarde wanneer u de kolom in alfabetische volgorde sorteert.

Daarnaast worden in de grafiek Waardeverdeling de aantallen voor elke afzonderlijke waarde in die specifieke kolom weergegeven. Wanneer u de grafiek in de vorige afbeelding bekijkt, ziet u dat de waardeverdeling aangeeft dat 'Anthony Gross' het grootste aantal keren wordt weergegeven in de kolom SalesPerson en dat 'Lily Code' het minste aantal keren wordt weergegeven. Deze informatie is met name belangrijk omdat hiermee uitbijters worden geïdentificeerd.  Als een waarde veel hoger lijkt dan andere waarden in een kolom, kunt u met de functie Waardedistributie een beginpunt van uw onderzoek aanwijzen, om te achterhalen waarom dit het geval is.

In een numerieke kolom bevat Kolomstatistieken ook het aantal nullen en null-waarden, samen met de gemiddelde waarde in de kolom, de standaarddeviatie van de waarden in de kolom en het aantal even en oneven waarden in de kolom. Deze statistieken geven u een beeld van de distributie van gegevens binnen de kolom en deze zijn belangrijk omdat hiermee de gegevens in de kolom worden samengevat. Ook fungeren ze als beginpunt om te bepalen wat de uitbijters zijn.

Wanneer u bijvoorbeeld factuurgegevens bekijkt, ziet u dat in de grafiek Waardedistributie wordt weergegeven dat een paar verkopers in de kolom Verkoper hetzelfde aantal keren in de gegevens worden weergegeven. Bovendien ziet u dat dezelfde situatie zich heeft voorgedaan in de kolom Winst en in een paar andere tabellen. Tijdens uw onderzoek ontdekt u dat de gegevens die u gebruikte slechte gegevens waren en dat deze moeten worden vernieuwd. U voltooit de vernieuwbewerking dus onmiddellijk. Als u deze grafiek niet had geraadpleegd, had u deze fout mogelijk niet zo snel gezien en daarom is waardedistributie essentieel.

Nadat u de bewerkingen in Power Query-editor hebt voltooid en klaar bent om visuals te gaan maken, gaat u terug naar Start op het lint Power Query-editor. Selecteer Sluiten & Toepassen, waarna u teruggaat naar Power BI Desktop en eventuele kolombewerkingen/-transformaties worden ook toegepast.

U hebt nu de elementen bepaald waaruit profileringsgegevens in Power BI bestaan, zoals het laden van gegevens in Power BI, het ondervragen van kolomeigenschappen om meer duidelijkheid te krijgen over en verdere wijzigingen aan te brengen in het type en de indeling van gegevens in kolommen, gegevensafwijkingen te vinden en gegevensstatistieken in Power Query-editor weer te geven. Met deze kennis kunt u de mogelijkheid om uw gegevens efficiënt en effectief te bestuderen, meenemen in uw toolkit.