Moderne datawarehouses voor kleine en middelgrote bedrijven

Azure Data Lake

Azure SQL Database

Microsoft Fabric

In dit artikel worden verschillende manieren beschreven waarop kleine en middelgrote bedrijven (MKB's) verouderde gegevensarchieven kunnen moderniseren en big data-hulpprogramma's en -mogelijkheden kunnen verkennen zonder de huidige budgetten en vaardighedensets te overbelasten. Deze uitgebreide oplossingen voor datawarehousing kunnen naadloos worden geïntegreerd met Azure Machine Learning, Azure AI-services, Microsoft Power Platform, Microsoft Dynamics 365 en andere Microsoft-technologieën. Deze oplossingen bieden een eenvoudig ingangspunt naar het volledig beheerde SaaS-gegevensplatform (Software as a Service) in Microsoft Fabric dat kan uitbreiden naarmate uw behoeften toenemen.

KLEINE ENB's die gebruikmaken van on-premises SQL Server voor datawarehousingoplossingen van minder dan 500 GB, profiteren mogelijk van het gebruik van dit patroon. Ze gebruiken verschillende hulpprogramma's voor gegevensopname in hun oplossing voor datawarehousing, waaronder SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), algemene op SQL opgeslagen procedures, extern extraheren, transformeren, laden (ETL) en hulpprogramma's voor laden, transformeren, transformeren (ELT), SQL Server Agent-taken en replicatie van SQL-momentopnamen. Gegevenssynchronisatiebewerkingen worden doorgaans op momentopnamen gebaseerd, eenmaal per dag uitgevoerd en hebben geen realtime rapportagevereisten.

Vereenvoudigde architectuur

Een Visio-bestand van deze architectuur downloaden.

Een conceptuele moderniseringskans omvat het overstappen van de verouderde oplossing voor datawarehousing naar een combinatie van Azure SQL Database, Azure SQL Managed Instance en Fabric. Deze strategie zorgt voor brede compatibiliteit met traditionele SQL Server- en SQL-clienthulpprogramma's zoals SQL Server Management Studio (SSMS). Het biedt ook lift-and-shift-opties voor bestaande processen en vereist minimale upskilling voor het ondersteuningsteam. Deze oplossing fungeert als een eerste stap in de richting van uitgebreide modernisering, waardoor de organisatie volledig een lakehouse-benadering kan aannemen naarmate het datawarehouse uitbreidt en de vaardighedenset van het team groeit.

Architectuur

Een Visio-bestand van deze architectuur downloaden.

Verouderde SMB-datawarehouses kunnen verschillende typen gegevens bevatten:

Ongestructureerde gegevens, zoals documenten en afbeeldingen.
Semi-gestructureerde gegevens, zoals logboeken, CSV's, JSON- en XML-bestanden.
Gestructureerde relationele gegevens, inclusief databases die gebruikmaken van opgeslagen procedures voor ETL- en ELT-activiteiten.

Gegevensstroom

De volgende gegevensstroom komt overeen met het voorgaande diagram. Het toont de opname van het gegevenstype dat u kiest:

Infrastructuurgegevenspijplijnen of Azure Data Factory-pijplijnen organiseren de opname van transactionele gegevens in de datawarehousingoplossing.
- De pijplijnen organiseren de stroom van gemigreerde of gedeeltelijk gerestructureerde verouderde databases en SSIS-pakketten in SQL Database en SQL Managed Instance. U kunt deze lift-and-shift-benadering snel implementeren, waardoor een naadloze overgang van een on-premises SQL-oplossing naar een toekomstige SaaS-infrastructuuromgeving wordt gegarandeerd. U kunt databases incrementeel moderniseren na de lift-and-shift.
- De pijplijnen kunnen ongestructureerde, semi-gestructureerde en gestructureerde gegevens doorgeven aan Azure Data Lake Storage voor gecentraliseerde opslag en analyse met andere bronnen. Gebruik deze benadering bij het combineren van gegevens meer bedrijfsvoordeel dan het opnieuw platformen van de gegevens.
Gebruik Microsoft Dynamics 365-gegevensbronnen om gecentraliseerde BI-dashboards (Business Intelligence) te bouwen op uitgebreide gegevenssets met behulp van serverloze infrastructuuranalysehulpprogramma's. U kunt de samengevoegde en verwerkte gegevens terugbrengen in Dynamics en deze gebruiken voor verdere analyse in Fabric.
Realtime gegevens uit streamingbronnen kunnen het systeem invoeren via Azure Event Hubs of andere streaming-oplossingen. Voor klanten met vereisten voor realtime dashboards kan Fabric Real-Time Analytics deze gegevens onmiddellijk analyseren.
De gegevens kunnen worden opgenomen in de gecentraliseerde Fabric OneLake voor verdere analyse, opslag en rapportage met behulp van Data Lake Storage-snelkoppelingen. Dit proces maakt in-place analyse mogelijk en faciliteert downstreamverbruik.
Serverloze analysehulpprogramma's, zoals SQL Analytics-eindpunten en Fabric Spark-mogelijkheden, zijn op aanvraag beschikbaar in Fabric en vereisen geen ingerichte resources. Serverloze analysehulpprogramma's zijn ideaal voor:
- ETL- en ELT-activiteiten op OneLake-gegevens.
- Het leveren van een gouden laag van de medalsight-architectuur aan Power BI-rapporten via de DirectLake-functie.
- Geïmproviseerde data science-verkenningen in T-SQL-indeling of Python.
- Vroege prototypen voor datawarehouse-entiteiten.

Fabric is nauw geïntegreerd met potentiële consumenten van uw gegevenssets met meerdere bronnen, waaronder front-endrapporten van Power BI, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions en Azure-app Service-web-apps.

Onderdelen

Fabric is een analyseservice die data engineering, datawarehousing, data science en realtime gegevens- en BI-mogelijkheden combineert. In deze oplossing bieden fabric-mogelijkheden voor data engineering een samenwerkingsplatform voor data engineers, gegevenswetenschappers, gegevensanalisten en BI-professionals. Dit belangrijke onderdeel wordt mogelijk gemaakt door serverloze rekenprogramma's en levert bedrijfswaarde door inzichten te genereren die worden gedistribueerd naar klanten.
SQL Database en SQL Managed Instance zijn relationele databaseservices in de cloud. SQL Database en SQL Managed Instance gebruiken SSMS voor het ontwikkelen en onderhouden van verouderde artefacten, zoals opgeslagen procedures. In deze oplossing hosten deze services het datawarehouse voor ondernemingen en voeren ETL- en ELT-activiteiten uit met behulp van opgeslagen procedures of externe pakketten. SQL Database en SQL Managed Instance zijn PaaS-omgevingen (Platform as a Service) die u kunt gebruiken om te voldoen aan vereisten voor hoge beschikbaarheid en herstel na noodgevallen. Zorg ervoor dat u de SKU kiest die aan uw vereisten voldoet. Zie Hoge beschikbaarheid voor SQL Database en hoge beschikbaarheid voor SQL Managed Instance voor meer informatie.
SSMS is een geïntegreerde omgeving voor het beheren van de SQL-infrastructuur die u kunt gebruiken voor het ontwikkelen en onderhouden van verouderde artefacten, zoals opgeslagen procedures.
Event Hubs is een realtime gegevensstreamingplatform en gebeurtenisopnameservice. Event Hubs integreert naadloos met Azure-gegevensservices en kan overal gegevens opnemen.

Alternatieven

U kunt Azure IoT Hub gebruiken om Event Hubs te vervangen of aan te vullen. Kies uw oplossing op basis van de bron van uw streaminggegevens en of u klonen en bidirectionele communicatie met de rapportageapparaten nodig hebt.
U kunt Fabric-gegevenspijplijnen gebruiken in plaats van Data Factory-pijplijnen voor gegevensintegratie. Uw beslissing is afhankelijk van verschillende factoren. Zie Ophalen van Azure Data Factory naar Data Factory in Fabric voor meer informatie.
U kunt Fabric Warehouse gebruiken in plaats van SQL Database of SQL Managed Instance om bedrijfsgegevens op te slaan. In dit artikel wordt prioriteit gegeven aan de markt voor klanten die hun datawarehouses willen moderniseren. Zie de handleiding fabric-beslissing voor meer informatie over opties voor het gegevensarchief voor Fabric.

Scenariodetails

Wanneer KMO's hun on-premises datawarehouses voor de cloud moderniseren, kunnen ze big data-hulpprogramma's gebruiken voor toekomstige schaalbaarheid of traditionele SQL-oplossingen gebruiken voor kostenefficiëntie, onderhoudsgemak en een soepele overgang. Een hybride benadering biedt het beste van beide werelden en maakt eenvoudige migratie van bestaande gegevensomgevingen mogelijk terwijl moderne hulpprogramma's en AI-mogelijkheden worden gebruikt. KMO's kunnen hun op SQL gebaseerde gegevensbronnen in de cloud houden en ze naar behoefte moderniseren.

In dit artikel worden verschillende strategieën beschreven voor kmo's om verouderde gegevensarchieven te moderniseren en big data-hulpprogramma's en -mogelijkheden te verkennen zonder de huidige budgetten en vaardighedensets uit te rekken. Deze uitgebreide azure-oplossingen voor datawarehousing kunnen naadloos worden geïntegreerd met Azure en Microsoft-services, waaronder AI-services, Microsoft Dynamics 365 en Microsoft Power Platform.

Potentiële gebruikscases

Migreer een traditioneel relationeel datawarehouse dat kleiner is dan 1 TB en maakt gebruik van SSIS-pakketten om opgeslagen procedures te organiseren.
Bestaande Dynamics- of Microsoft Power Platform Dataverse-gegevens met batchgewijze en realtime Data Lake-bronnen.
Gebruik innovatieve technieken om te communiceren met gecentraliseerde Azure Data Lake Storage Gen2-gegevens. Deze technieken omvatten serverloze analyse, kennisanalyse, gegevensfusie tussen domeinen en gegevensverkenning door eindgebruikers, waaronder Fabric Copilot.
Stel e-commercebedrijven in om een datawarehouse te gebruiken om hun activiteiten te optimaliseren.

Deze oplossing wordt niet aanbevolen voor:

Een greenfield-implementatie van datawarehouses.
Migratie van on-premises datawarehouses die groter zijn dan 1 TB of die binnen een jaar worden verwacht.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.

Met azure-prijscalculator kunt u waarden wijzigen om te begrijpen hoe uw specifieke vereisten van invloed zijn op de kosten. U ziet een prijsvoorbeeld voor een scenario voor SMB-datawarehousing in de Azure-prijscalculator.
De prijzen van SQL Database zijn afhankelijk van de reken- en servicelagen die u kiest en het aantal vCores en databasetransactieeenheden. In het voorbeeld wordt één database beschreven met ingerichte rekenkracht en acht vCores en wordt ervan uitgegaan dat u opgeslagen procedures moet uitvoeren in SQL Database.
De prijzen van Data Lake Storage Gen2 zijn afhankelijk van de hoeveelheid gegevens die u opslaat en hoe vaak u de gegevens gebruikt. De voorbeeldprijzen hebben betrekking op 1 TB aan gegevensopslag en andere transactionele veronderstellingen. De 1 TB verwijst naar de grootte van de data lake en niet naar de grootte van de oorspronkelijke verouderde database.
De infrastructuurprijzen zijn afhankelijk van de capaciteitsprijs voor Fabric F of de prijs voor Premium Per Persoon. Serverloze mogelijkheden maken gebruik van CPU en geheugen van uw aangeschafte toegewezen capaciteit.
De prijzen van Event Hubs zijn afhankelijk van de categorie die u kiest, het aantal ingerichte doorvoereenheden en het ontvangen inkomend verkeer. In het voorbeeld wordt ervan uitgegaan dat één doorvoereenheid in de Standard-laag meer dan één miljoen gebeurtenissen per maand verwerkt.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Galina Polyakova | Senior Cloud Solution Architect

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Delen via

Moderne datawarehouses voor kleine en middelgrote bedrijven

Vereenvoudigde architectuur

Architectuur

Gegevensstroom

Onderdelen

Alternatieven

Scenariodetails

Potentiële gebruikscases

Overwegingen

Kostenoptimalisatie

Medewerkers

Volgende stappen

Feedback

Aanvullende resources

Delen via

Moderne datawarehouses voor kleine en middelgrote bedrijven

Vereenvoudigde architectuur

Architectuur

Gegevensstroom

Onderdelen

Alternatieven

Scenariodetails

Potentiële gebruikscases

Overwegingen

Kostenoptimalisatie

Medewerkers

Volgende stappen

Verwante resources

Feedback

Aanvullende resources