Inzicht in het Azure-gegevensecosysteem

Voltooid

Voor moderne analyses zijn hulpprogramma's vereist waarmee gegevens uit veel bronnen kunnen worden opgeslagen en getransformeerd. In deze les leert u meer over azure-oplossingen voor gegevensopslag, gegevensopname en gegevensverwerking.

Voordat u een analyseoplossing presenteert aan de CEO van Relecloud, heeft het gegevensteam een duidelijk inzicht nodig in waar gegevens vandaan komen, in welke formulieren gegevens zich bevinden en de verwachte schaal en frequentie van binnenkomende gegevens. Voordat u gestructureerde vereisten verzamelt, neemt u contact op met het team om belangrijke gegevensconcepten te bekijken.

Oplossingen voor Azure-gegevensopslag

Azure Storage-accounts zijn het basisopslagtype in Azure. Azure Storage biedt een schaalbaar objectarchief voor gegevensobjecten en bestandssysteemservices in de cloud.

In een analyseoplossing worden gegevens uit verschillende bronnen gecombineerd en voorbereid voor gebruik. Gegevens kunnen worden opgeslagen als bestanden in een Data Lake Store of in een database. Informatie over basisopslagtypen in Azure is belangrijk voor de data engineer, terwijl de gegevensanalist bekend moet zijn met een analytische gegevensopslag die verwerkte gegevens verwerkt in een indeling die kan worden opgevraagd met behulp van analytische hulpprogramma's.

Overall data pipeline diagram beginning with data sources on the left and flowing through to analytics and reporting.

Gebieden die rood in de bovenstaande afbeelding worden beschreven, markeren de onderdelen van de analyseoplossing die gegevensanalisten gebruiken om de gegevens te begrijpen.

Gegevensopname en -verwerking

Gegevensopname is het proces van het verkrijgen en importeren van gegevens voor direct gebruik of opslag in een analytische gegevensopslag.

Gegevensverwerking is simpelweg de conversie van onbewerkte gegevens naar zinvolle informatie via een proces. Afhankelijk van hoe gegevens in uw systeem worden opgenomen, kunt u elk gegevensitem verwerken terwijl het binnenkomt, of de onbewerkte gegevens bufferen en verwerken in groepen. Het verwerken van gegevens op het moment dat deze binnenkomen wordt streaminggenoemd. Het bufferen en groepsgewijs verwerken van gegevens wordt batchverwerking genoemd.

Bij batchverwerking worden nieuw binnenkomende gegevenselementen verzameld in een groep. De hele groep wordt vervolgens op een later tijdstip als batch verwerkt. Precies wanneer elke groep wordt verwerkt, kan op veel manieren worden bepaald. U kunt bijvoorbeeld gegevens verwerken op basis van een gepland tijdsinterval (bijvoorbeeld elk uur) of worden geactiveerd wanneer een bepaalde hoeveelheid gegevens is aangekomen. Het maandelijkse factureringsproces van Relecloud is een goed voorbeeld van batchverwerking, omdat rekeningtransacties per maand worden verwerkt en gefactureerd.

Notitie

Batchverwerking is het meest voorkomende type gegevensverwerking, dat het meest geschikt is voor grote gegevenssets of gegevens die afkomstig zijn van verouderde gegevenssystemen. Batchverwerking is niet geschikt voor snelle analyse en besluitvorming.

Bij het verwerken van stromen wordt elk nieuw stukje gegevens verwerkt wanneer deze binnenkomen. Gegevensopname is bijvoorbeeld een typisch streamingproces.

Bij streaming worden gegevens in realtime verwerkt. In tegenstelling tot batchverwerking is er geen wachttijd tot het volgende batchverwerkingsinterval, en worden gegevens verwerkt als afzonderlijke elementen in plaats van dat ze als batch worden verwerkt. Het verwerken van streaminggegevens is handig in de meeste scenario's waar doorlopend nieuwe dynamische gegevens worden gegenereerd.

Een fraudeafdeling gebruikt streamverwerking om realtime fraude en anomaliedetectie af te handelen.

Notitie

Streamverwerking is ideaal voor projecten die realtime-analyses vereisen en die minder geschikt zijn voor projecten waarvoor complexe analyses nodig zijn.

Hoewel de gegevensverwerking doorgaans upstream van het analytische gegevensarchief plaatsvindt, is het essentieel dat analisten begrijpen hoe gegevens worden opgenomen en met welke frequentie de juiste analyseoplossing kunnen bouwen.