Moderní datové sklady pro malé nebo střední firmy

Azure Data Lake
Azure SQL Database
Microsoft Fabric

Tento článek popisuje způsoby, jak mohou malé nebo střední firmy migrovat a modernizovat starší úložiště dat v rámci svých aktuálních rozpočtů a sady dovedností. Ukazuje, jak postupně zkoumat nástroje a možnosti pro velké objemy dat. Tato řešení datových skladů se integrují se službou Azure Machine Learning, Foundry Tools, Microsoft Power Platform, Dynamics 365 a dalšími technologiemi Microsoftu. Tato řešení poskytují počáteční vstupní bod pro Microsoft Fabric, což je datová platforma SaaS (Managed Software as a Service), která se může rozšířit podle vašich potřeb.

Tento model podporuje malé nebo střední firmy, které mají následující charakteristiky:

  • Použití místního SQL Serveru pro řešení datových skladů pod 1 terabajtem (TB)

  • Využití tradičních nástrojů SQL Serveru, jako jsou Služby Integrace SQL Serveru (SSIS), Analytické služby SQL Serveru (SSAS), SQL Server Reporting Services (SSRS), běžné uložené procedury SQL a úlohy agenta SQL Serveru

  • Použijte nástroje pro externí extrakci, transformaci a načítání (ETL) a extrakci, načítání a transformaci (ELT)

  • Při synchronizaci dat se spoléhá na replikaci snímků.

  • Provozujte dávkové operace a nevyžadujte generování sestav v reálném čase.

Zjednodušená architektura

Diagram znázorňující zjednodušenou malou nebo střední obchodní architekturu

Diagram znázorňující tok dat pro modernizaci malých nebo středně velkých obchodních datových skladů Na levé straně se původní řešení datových skladů připojí pomocí šipky datového kanálu k tečkovanému rámečku s označením Úložiště a zpracování. Toto pole obsahuje Azure SQL Database a Azure SQL Managed Instance a připojí se k druhému tečkovanému poli s popiskem Proces a prezentace. Tato krabice obsahuje aplikaci Fabric a připojuje se k Power BI.

Stáhněte si soubor Visia této architektury.

Koncepční možnost modernizace zahrnuje přechod řešení starších datových skladů na kombinaci služby Azure SQL Database, Azure SQL Managed Instance a Fabric. Tato strategie zajišťuje širokou kompatibilitu s tradičním SQL Serverem a klientskými nástroji SQL, jako je SQL Server Management Studio (SSMS). Poskytuje také možnosti opětovného hostování stávajících procesů a vyžaduje minimální dovednosti týmu podpory. Toto řešení poskytuje počáteční krok k komplexní modernizaci. Jak váš datový sklad roste a váš tým získává odborné znalosti, můžete přejít na kompletní SaaS sklady na platformě Fabric nebo přijmout lakehouse přístup.

Starší datové sklady pro malé nebo střední firmy můžou obsahovat několik typů dat:

  • Nestrukturovaná data, jako jsou dokumenty a grafika

  • Částečně strukturovaná data, jako jsou protokoly, hodnoty oddělené čárkami (CSV), JSON a soubory XML

  • Strukturovaná relační data, včetně databází, které používají uložené procedury pro aktivity ETL a ELT

Architektura

Diagram znázorňující rozšířenou architekturu navrženou tak, aby vyhovovala budoucím potřebám

Diagram znázorňující architekturu toku dat zleva doprava s několika zdroji dat, fázemi zpracování a koncovými body spotřeby Na levé straně jsou tři kategorie zdrojů dat: zdroje datových proudů, Dynamics 365 a nestrukturovaná data, částečně strukturovaná data a relační databáze. Čtyři tečkované úseky vedou zleva doprava. První část je označena jako načítání a ingest a obsahuje službu Azure Event Hubs a datový kanál služby Azure Data Factory. Druhá část je označená jako úložiště a obsahuje Azure Data Lake Storage a SQL Database. Třetí část je označena jako zpracování a manipulace a obsahuje Fabric Real-Time Intelligence a OneLake. Čtvrtá část je označená jako spolupráce a využívání a obsahuje koncový bod analýzy SQL, fond Apache Spark a kanály. Třetí a čtvrtá část se nachází v prostředí 'Fabric' označeném kapacita 'Fabric', kapacita Premium nebo Premium na uživatele. V kroku 3 ukazují zdroje streamování na službu Event Hubs. Nestrukturovaná data, částečně strukturovaná data a relační databáze odkazují na kanál služby Data Factory. Šipka ukazuje z Event Hubs na Real-Time Intelligence. Šipky ze služby Event Hubs, Dynamics 365, která je označená jako krok 2, a z datového kanálu Data Factory směřují na Data Lake Storage. V kroku 1 směřuje šipka z datového potrubí Data Factory k SQL Database. V kroku 4 odkazuje Data Lake Storage na OneLake. V kroku 5 oranžový tečkovaný rámeček označený jako bezserverová analýza obsahuje Data Lake Storage, OneLake a koncový bod analýzy SQL. Úplně vpravo obsahuje část využití a obsluhy sedm koncových bodů: Power Apps, Dynamics 365, Dynamics CRM, Power BI, aplikace Functions, Azure Logic Apps a webové aplikace. Šipky ukazují z jednotlivých komponent v oddíle spolupráce a konzumace k těmto koncovým bodům.

Stáhněte si soubor Visia této architektury.

Tok dat

Následující tok dat odpovídá předchozímu diagramu:

  1. Datové kanály Microsoft Fabric nebo kanály Azure Data Factory zpracovávají transakční data do řešení datového skladu.

    • Kanály orchestrují tok migrovaných nebo částečně refaktorovaných starších databází a balíčků SSIS do služby SQL Database nebo spravované instance SQL. Tento přístup k migraci představuje přechod z on-premise řešení SQL na budoucí prostředí Fabric SaaS. Databáze můžete modernizovat přírůstkově po počáteční migraci.

    • Pipelíny můžou přesouvat nestrukturovaná, částečně strukturovaná a strukturovaná data do Azure Data Lake Storage pro centralizované úložiště a analýzu napříč zdroji. Tento přístup použijte při kombinování dat z více zdrojů, které poskytují větší obchodní hodnotu než migrace dat na novou platformu.

  2. Pomocí dat Dynamics 365 můžete vytvářet centralizované panely business intelligence (BI) pomocí bezserverových analytických nástrojů na obohacených datových sadách. Data Dynamics 365 můžete ingestovat do služby Data Lake Storage nebo propojit prostředí Dataverse přímo s Fabric pomocí zástupce Dynamics 365 v OneLake. Výsledky analýzy můžete napsat zpět do Dynamics 365 nebo pokračovat v analýze v rámci infrastruktury.

  3. Azure Event Hubs nebo jiná streamovaná řešení streamují data v reálném čase do systému. Funkce Fabric Real-Time Intelligence poskytuje okamžitou analýzu pro podporu řídicích panelů v reálném čase.

  4. Zkratky Data Lake Storage přenesou data do Fabric OneLake pro analýzu, ukládání a vytváření zpráv. Tento přístup analyzuje data na místě, aniž by je přesunul, a zpřístupňuje je podřízeným příjemcům.

  5. Fabric poskytuje bezserverové analytické nástroje na vyžádání, jako je koncový bod SQL Analytics a Apache Spark, aniž by bylo potřeba zřídit prostředky. Tyto nástroje podporují následující aktivity:

    • Aktivity ETL a ELT týkající se dat OneLake

    • Obsluha zlaté vrstvy medailonové architektury pro sestavy Power BI prostřednictvím funkce DirectLake

    • Improvizované zkoumání datových věd v T-SQL nebo Pythonu

    • Počáteční vytváření prototypů entit datového skladu

Fabric se integruje se spotřebiteli vašich multisource datových sad, včetně front-endových sestav Power BI, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions a webových aplikací Azure App Service.

Komponenty

  • Fabric je analytická služba, která kombinuje datové inženýrství, datové sklady, datové vědy a možnosti bi v reálném čase. V této architektuře poskytují funkce přípravy dat Fabric platformu pro spolupráci pro datové inženýry, datové vědce, datové analytiky a odborníky v oblasti BI. Fabric používá bezserverové výpočetní jednotky k vygenerování přehledů, které podporují obchodní rozhodování.

  • SQL Database a SQL Managed Instance jsou cloudové služby relačních databází. V této architektuře tyto služby hostují podnikový datový sklad a provádějí aktivity ETL a ELT pomocí uložených procedur nebo externích balíčků (SSIS). SQL Database a SQL Managed Instance jsou prostředí paaS (platforma jako služba), která můžete použít ke splnění požadavků na vysokou dostupnost a zotavení po havárii. Vyberte skladovou položku, která splňuje vaše požadavky. Další informace najdete v tématu Vysoká dostupnost služby SQL Database a vysoká dostupnost pro službu SQL Managed Instance.

  • Event Hubs je platforma pro streamování dat v reálném čase a služba pro příjem událostí. V této architektuře se Služba Event Hubs integruje s datovými službami Azure za účelem ingestování streamovaných dat z různých zdrojů do Služby Data Lake Storage pro účely analýzy a generování sestav. Event Hubs může také streamovat data přímo do Real-Time Intelligence.

  • Data Lake Storage je centralizované cloudové úložiště, které ukládá strukturovaná a nestrukturovaná data. V této architektuře může Služba Data Lake Storage ukládat archivovaná streamovaná data a kopie dat Dynamics 365.

Alternativy

Podrobnosti scénáře

Malé nebo střední firmy, které modernizují místní datové sklady pro cloud, si můžou vybrat mezi dvěma přístupy. Nástroje pro velké objemy dat můžete využít pro budoucí škálovatelnost nebo můžete použít tradiční řešení založená na SQL, která umožňují nákladovou efektivitu a předvídatelný přechod. Hybridní přístup umožňuje migrovat stávající data při používání moderních nástrojů a funkcí umělé inteligence. Zdroje dat založené na SQL můžete udržovat spuštěné v cloudu a postupně je modernizovat.

Tento článek popisuje, jak malé nebo střední firmy můžou modernizovat starší úložiště dat a využívat nástroje pro velké objemy dat a přitom zůstat v rámci stávajících rozpočtů a sad dovedností. Tato řešení datových skladů Azure se integrují se službami Azure a Microsoftu, včetně Foundry Tools, Dynamics 365 a Power Platform.

Potenciální případy použití

  • Migrujte tradiční místní relační datový sklad, který je menší než 1 TB a používá balíčky SSIS k orchestraci uložených procedur.

  • Zkombinujte data Dynamics 365 nebo Dataverse s dávkovými a daty v reálném čase ze služby Data Lake Storage.

  • Používejte inovativní techniky pro interakci s centralizovanými daty Data Lake Storage. Mezi tyto techniky patří bezserverová analýza, dolování znalostí, fúze dat mezi doménami a samoobslužné zkoumání dat pomocí Copilotu v Fabric.

  • Umožněte firmám elektronického obchodování přijímat cloudové datové sklady pro provozní optimalizaci.

Toto řešení nedoporučujeme pro následující scénáře:

  • Nasazení datového skladu Greenfield. Pro tento scénář viz Greenfield lakehouse on Fabric.

  • Místní datové sklady, které jsou o velikosti 1 TB nebo větší, nebo které dosáhnou této velikosti do roku. Většina organizací přijímá specializovaná řešení datových skladů pro datové sklady v této velikosti. Pro tyto scénáře se podívejte na replatformingové alternativy.

Zvážení

Tyto aspekty implementují pilíře Dobře navržené architektury Azure, což je sada hlavních principů, které můžete použít ke zlepšení kvality pracovní zátěže. Další informace najdete v tématu Well-Architected Framework.

Reliability

Spolehlivost pomáhá zajistit, aby vaše aplikace splňovala závazky, které jste pro své zákazníky udělali. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro spolehlivost.

Vy a Microsoft sdílíte odpovědnost za spolehlivost většiny služeb Azure. Microsoft poskytuje možnosti pro podporu odolnosti a obnovení. Musíte pochopit, jak tyto funkce fungují v jednotlivých službách, které používáte, a vybrat konfigurace, které splňují vaše obchodní cíle a cíle dostupnosti. Projděte si dokumentaci specifickou pro službu a vyberte konfigurace, které splňují cíle provozní kontinuity a zotavení po havárii.

Optimalizace nákladů

Optimalizace nákladů se zaměřuje na způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro optimalizaci nákladů.

  • Cenová kalkulačka Azure umožňuje upravit hodnoty, abyste pochopili, jak vaše konkrétní požadavky ovlivňují náklady. Podívejte se na ukázku cen pro scénář malých nebo středně velkých obchodních datových skladů.

  • Ceny služby SQL Database závisí na výpočetní úrovni, úrovni služby, počtu virtuálních jader a jednotkách databázových transakcí. Ukázka cen používá jednu databázi se zřízenými výpočetními prostředky a osmi virtuálními jádry ke spouštění uložených procedur ve službě SQL Database. Náklady můžete snížit pomocí rezervované kapacity a zvýhodněných hybridních služeb Azure.

  • Ceny služby Data Lake Storage závisí na objemu úložiště a frekvenci přístupu k datům. Ukázka cen zahrnuje 1 TB úložiště dat a související náklady na transakce. 1 TB představuje velikost datového jezera, nikoli původní starší velikost databáze. Data Lake Storage představuje dodatečné náklady na modernizaci nad rámec starší databáze.

  • Ceny Fabric závisí na modelu kapacity Fabric F nebo modelu Premium na osobu. Bezserverové funkce spotřebovávají procesor a paměť z zakoupené vyhrazené kapacity. Po modernizaci budou vaše stávající sestavy dál fungovat tak, že se připojí k novému datovému skladu (SQL Database nebo SQL Managed Instance) s existujícími licencemi. Ukázka cen zahrnuje skladovou položku F2, která představuje budoucí rozšíření BI prostřednictvím samoobslužné přípravy dat, datamartů, inteligence v reálném čase a pracovních postupů s podporou AI. Skladová položka F2 s roční rezervací poskytuje nákladově efektivní vstupní bod. Pokud aktuálně používáte Power BI Premium nebo migrujete na F64, možná nebudete potřebovat další kapacitu F.

  • Ceny služby Event Hubs závisí na vybrané úrovni, zřízených jednotkách propustnosti (PTU) a objemu příchozího provozu. V ukázce cen se předpokládá, že jedna jednotka propustnosti na úrovni Standard zpracovává více než jeden milion událostí za měsíc. Event Hubs představuje dodatečné náklady na modernizaci, pokud do svého řešení přidáte možnosti streamování v reálném čase.

Přispěvatelé

Microsoft udržuje tento článek. Tento článek napsali následující přispěvatelé.

Hlavní autor:

Další přispěvatel:

Pokud chcete zobrazit nepublikované profily LinkedIn, přihlaste se na LinkedIn.

Další kroky