Gegevens verkennen met NumPy en Pandas

Voltooid

Gegevenswetenschappers kunnen verschillende hulpprogramma's en technieken gebruiken om gegevens te verkennen, visualiseren en bewerken. Een van de meest voorkomende manieren waarop gegevenswetenschappers met gegevens werken, is het gebruik van de Python-taal en een aantal specifieke pakketten voor gegevensverwerking.

Wat is NumPy?

NumPy is een Python-bibliotheek die functionaliteit biedt die vergelijkbaar is met wiskundige hulpprogramma's zoals MATLAB en R. Hoewel NumPy de gebruikerservaring aanzienlijk vereenvoudigt, biedt het ook uitgebreide wiskundige functies.

Wat is Pandas?

Pandas is een zeer populaire Python-bibliotheek voor gegevensanalyse en -manipulatie. Pandas is vergelijkbaar met een spreadsheettoepassing voor Python en biedt gebruiksvriendelijke functionaliteit voor gegevenstabellen.

Diagram van een Pandas-dataframe.

Gegevens in een notebook verkennen

Notebooks zijn een populaire manier om basisscripts uit te voeren met behulp van uw webbrowser. Deze notebooks zijn doorgaans één webpagina, onderverdeeld in tekstsecties en codesecties die afzonderlijk kunnen worden uitgevoerd.

Hypothesen testen

Gegevensverkenning en -analyse is doorgaans een iteratief proces, waarbij de data scientist een steekproef van gegevens neemt en de volgende soorten taken uitvoert om deze te analyseren en hypothesen te testen:

  • Gegevens opschonen om fouten, ontbrekende waarden en andere problemen te verwerken.
  • Pas statistische technieken toe om meer inzicht te krijgen in de gegevens en hoe de steekproef naar verwachting de werkelijke populatie van gegevens vertegenwoordigt, waardoor willekeurige variatie mogelijk is.
  • Visualiseer gegevens om relaties tussen variabelen te bepalen en identificeer in het geval van een machine learning-project functies die mogelijk voorspellend zijn voor het label.
  • Pas de hypothese aan en herhaal het proces.