Modern datawarehouse voor kleine en middelgrote bedrijven

Azure Data Lake
Azure SQL Database
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

In deze voorbeeldworkload ziet u verschillende manieren waarop kleine bedrijven (MKB's) verouderde gegevensarchieven kunnen moderniseren en big data-hulpprogramma's en -mogelijkheden kunnen verkennen, zonder dat de huidige budgetten en vaardighedensets worden overschreden. Deze end-to-end azure-oplossingen voor datawarehousing kunnen eenvoudig worden geïntegreerd met hulpprogramma's zoals Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics en andere Microsoft-technologieën.

Architectuur

Diagram that shows how SMBs can modernize legacy data stores.

Een Visio-bestand van deze architectuur downloaden.

Verouderde SMB-datawarehouses kunnen verschillende typen gegevens bevatten:

  • Ongestructureerde gegevens, zoals documenten en afbeeldingen
  • Semi-gestructureerde gegevens, zoals logboeken, CSV's, JSON- en XML-bestanden
  • Gestructureerde relationele gegevens, waaronder databases die gebruikmaken van opgeslagen procedures voor etl-transformatie-/extract-load-transform -activiteiten (ETL/ELT)

Gegevensstroom

De volgende gegevensstroom toont de opname van het gekozen gegevenstype:

  1. Azure Synapse Analytics-pijplijnen nemen de verouderde datawarehouses op in Azure.

    • De pijplijnen organiseren de stroom van gemigreerde of gedeeltelijk gerestructureerde verouderde databases en SSIS-pakketten in Azure SQL Database. Deze lift-and-shift-benadering is het snelst te implementeren en biedt een soepele overgang van een on-premises SQL-oplossing naar een uiteindelijk PaaS (Platform-as-a-Service) van Azure. U kunt databases incrementeel moderniseren na de lift-and-shift.

    • De pijplijnen kunnen ook ongestructureerde, semi-gestructureerde en gestructureerde gegevens doorgeven aan Azure Data Lake Storage voor gecentraliseerde opslag en analyse met andere bronnen. Gebruik deze aanpak bij het combineren van gegevens meer bedrijfsvoordelen dan het opnieuw platformen van de gegevens.

  2. Microsoft Dynamics-gegevensbronnen kunnen worden gebruikt om gecentraliseerde BI-dashboards te bouwen op uitgebreide gegevenssets met behulp van synapse serverloze analysehulpprogramma's. U kunt de samengevoegde, verwerkte gegevens terugbrengen in Dynamics en Power BI voor verdere analyse.

  3. Realtime gegevens uit streamingbronnen kunnen ook via Azure Event Hubs het systeem invoeren. Voor klanten met realtime dashboardvereisten kan Azure Stream Analytics deze gegevens onmiddellijk analyseren.

  4. De gegevens kunnen ook de gecentraliseerde Data Lake invoeren voor verdere analyse, opslag en rapportage.

  5. Serverloze analysehulpprogramma's zijn beschikbaar in de Azure Synapse Analytics-werkruimte. Deze hulpprogramma's maken gebruik van serverloze SQL-pool of Apache Spark-rekenmogelijkheden voor het verwerken van de gegevens in Data Lake Storage Gen2. Serverloze pools zijn op aanvraag beschikbaar en vereisen geen ingerichte resources.

    Serverloze pools zijn ideaal voor:

    • Ad-hoc data science-verkenningen in T-SQL-indeling.
    • Vroege prototypen voor datawarehouse-entiteiten.
    • Weergaven definiëren die consumenten kunnen gebruiken, bijvoorbeeld in Power BI, voor scenario's die prestatievertraging kunnen verdragen.

Azure Synapse is nauw geïntegreerd met potentiële consumenten van uw gefuseerde gegevenssets, zoals Azure Machine Learning. Andere consumenten kunnen Power Apps, Azure Logic Apps, Azure Functions-apps en Azure-app Service-web-apps zijn.

Onderdelen

  • Azure Synapse Analytics is een analyseservice die gegevensintegratie, zakelijke datawarehousing en big data-analyses combineert. In deze oplossing:

    • Een Azure Synapse-werkruimte bevordert de samenwerking tussen data engineers, gegevenswetenschappers, gegevensanalisten en BI-professionals (Business Intelligence).
    • Azure Synapse-pijplijnen organiseren en opnemen gegevens in SQL Database en Data Lake Storage Gen2.
    • Serverloze SQL-pools van Azure Synapse analyseren ongestructureerde en semi-gestructureerde gegevens in Data Lake Storage Gen2 op aanvraag.
    • Serverloze Apache Spark-pools in Azure Synapse voeren code-first verkenningen uit in Data Lake Storage Gen2 met Spark-talen zoals Spark SQL, pySpark en Scala.
  • Azure SQL Database is een intelligente, schaalbare relationele databaseservice die is gebouwd voor de cloud. In deze oplossing bevat SQL Database het datawarehouse voor ondernemingen en voert ETL/ELT-activiteiten uit die gebruikmaken van opgeslagen procedures.

  • Azure Event Hubs is een realtime platform voor gegevensstreaming en een service voor gebeurtenisopname. Event Hubs kan overal gegevens opnemen en naadloos integreren met Azure-gegevensservices.

  • Azure Stream Analytics is een realtime, serverloze analyseservice voor streaminggegevens. Stream Analytics biedt snelle, elastische schaalbaarheid, betrouwbaarheid en herstel op bedrijfsniveau en ingebouwde machine learning-mogelijkheden.

  • Azure Machine Learning is een hulpprogrammaset voor het ontwikkelen en levenscyclusbeheer van data science-modellen. Machine Learning is een voorbeeld van azure en Microsoft-services die gefuseerde, verwerkte gegevens uit Data Lake Storage Gen2 kunnen verbruiken.

Alternatieven

  • Azure IoT Hub kan Event Hubs vervangen of aanvullen. De oplossing die u kiest, is afhankelijk van de bron van uw streaminggegevens en of u klonen en bidirectionele communicatie met de rapportageapparaten nodig hebt.

  • U kunt Azure Data Factory gebruiken voor gegevensintegratie in plaats van Azure Synapse-pijplijnen. De keuze is afhankelijk van verschillende factoren:

    • Azure Synapse-pijplijnen houden het ontwerp van de oplossing eenvoudiger en maken samenwerking mogelijk binnen één Azure Synapse-werkruimte.
    • Azure Synapse-pijplijnen bieden geen ondersteuning voor het opnieuw hosten van SSIS-pakketten, die beschikbaar zijn in Azure Data Factory.
    • Synapse Monitor Hub bewaakt Azure Synapse-pijplijnen, terwijl Azure Monitor Data Factory kan bewaken.

    Zie Gegevensintegratie in Azure Synapse Analytics versus Azure Data Factory voor meer informatie en een functievergelijking tussen Azure Synapse-pijplijnen en Data Factory.

  • U kunt toegewezen SQL-pools van Synapse Analytics gebruiken voor het opslaan van zakelijke gegevens in plaats van SQL Database. Bekijk de use cases en overwegingen in dit artikel en gerelateerde resources om een beslissing te nemen.

Scenariodetails

Kleine en middelgrote bedrijven (KMO's) hebben een keuze bij het moderniseren van hun on-premises datawarehouses voor de cloud. Ze kunnen big data-hulpprogramma's gebruiken voor toekomstige uitbreidbaarheid of traditionele, op SQL gebaseerde oplossingen behouden voor kostenefficiëntie, onderhoudsgemak en soepele overgang.

Een hybride benadering combineert echter een eenvoudige migratie van de bestaande gegevensomgeving met de mogelijkheid om big data-hulpprogramma's en -processen toe te voegen voor sommige gebruiksscenario's. Op SQL gebaseerde gegevensbronnen kunnen in de cloud blijven werken en naar wens moderniseren.

In deze voorbeeldworkload ziet u verschillende manieren waarop KMO's verouderde gegevensarchieven kunnen moderniseren en big data-hulpprogramma's en -mogelijkheden kunnen verkennen, zonder dat de huidige budgetten en vaardighedensets worden overschreden. Deze end-to-end azure-oplossingen voor datawarehousing kunnen eenvoudig worden geïntegreerd met Azure en Microsoft-services en hulpprogramma's zoals Azure Machine Learning, Microsoft Power Platform en Microsoft Dynamics.

Potentiële gebruikscases

Verschillende scenario's kunnen profiteren van deze workload:

  • Het migreren van een traditioneel, on-premises relationeel datawarehouse dat kleiner is dan 1 TB en intensief gebruikmaakt van SSIS-pakketten (SQL Server Integration Services) om opgeslagen procedures te organiseren.

  • Bestaande Dynamics- of Power Platform Dataverse-gegevens samenvoegen met batchgewijze en realtime Azure Data Lake-bronnen.

  • Innovatieve technieken gebruiken om te communiceren met gecentraliseerde Data Lake Storage Gen2-gegevens. Technieken zijn onder andere serverloze analyse, kennisanalyse, gegevensfusie tussen domeinen en gegevensverkenning door eindgebruikers.

  • Het opzetten van e-commercebedrijven om een datawarehouse te gebruiken om hun activiteiten te optimaliseren.

Deze oplossing wordt niet aanbevolen voor:

  • Greenfield-implementatie van datawarehouses die naar schatting binnen één jaar 1 TB zijn > .

  • Migreren van on-premises datawarehouses van 1 TB of die > binnen een jaar naar die grootte zijn geprojecteerd.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

De volgende overwegingen zijn van toepassing op dit scenario.

Beschikbaarheid

SQL Database is een PaaS-service die kan voldoen aan uw vereisten voor hoge beschikbaarheid (HA) en noodherstel (DR). Zorg ervoor dat u de SKU kiest die aan uw vereisten voldoet. Zie Hoge beschikbaarheid voor Azure SQL Database voor hulp.

Operations

SQL Database maakt gebruik van SQL Server Management Studio (SSMS) voor het ontwikkelen en onderhouden van verouderde artefacten, zoals opgeslagen procedures.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

Bekijk een prijsvoorbeeld voor een scenario voor SMB-datawarehousing in de Azure-prijscalculator. Pas de waarden aan om te zien hoe uw vereisten van invloed zijn op de kosten.

  • SQL Database baseert kosten op de geselecteerde compute- en servicelagen, en het aantal vCores en DTU's (Database Transaction Units). In het voorbeeld ziet u één database met ingerichte Compute- en acht vCores, op basis van de veronderstelling dat u opgeslagen procedures moet uitvoeren in SQL Database.

  • De prijzen van Data Lake Storage Gen2 zijn afhankelijk van de hoeveelheid gegevens die u opslaat en hoe vaak u de gegevens gebruikt. De voorbeeldprijzen omvatten 1 TB aan gegevens die zijn opgeslagen, met verdere transactionele veronderstellingen. De 1 TB verwijst naar de grootte van de data lake, niet naar de oorspronkelijke verouderde databasegrootte.

  • Azure Synapse-pijplijnen baseren de kosten op het aantal activiteiten in de gegevenspijplijn, de integratieruntime-uren, de grootte van het gegevensstroomcluster en de uitvoerings- en bewerkingskosten. Pijplijnkosten nemen toe met extra gegevensbronnen en hoeveelheden verwerkte gegevens. In het voorbeeld wordt ervan uitgegaan dat één gegevensbron elk uur gedurende 15 minuten in batches wordt gebatcheerd op een door Azure gehoste Integration Runtime.

  • Azure Synapse Spark-pool baseert prijzen op knooppuntgrootte, aantal exemplaren en uptime. In het voorbeeld wordt uitgegaan van één klein rekenknooppunt met vijf uur per week tot 40 uur per maandgebruik.

  • Serverloze SQL-pool van Azure Synapse baseert prijzen op TB's met verwerkte gegevens. In het voorbeeld wordt ervan uitgegaan dat 50 TB per maand is verwerkt. Deze afbeelding verwijst naar de grootte van de data lake, niet naar de oorspronkelijke verouderde databasegrootte.

  • Event Hubs factureert op basis van laag, doorvoereenheden die zijn ingericht en inkomend verkeer dat is ontvangen. In het voorbeeld wordt ervan uitgegaan dat één doorvoereenheid in de Standard-laag gedurende een maand meer dan één miljoen gebeurtenissen bevat.

  • Stream Analytics baseert de kosten op het aantal ingerichte streaming-eenheden. In het voorbeeld wordt uitgegaan van één streaming-eenheid die in de loop van de maand wordt gebruikt.

Bijdragers

Dit artikel wordt bijgewerkt en onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

  • Galina Polyakova | Senior Cloud Solution Architect

Volgende stappen