Průvodce rozhodováním Microsoft Fabric: Volba úložiště dat

Tento referenční průvodce a ukázkové scénáře vám pomůžou zvolit úložiště dat pro vaše úlohy Microsoft Fabric.

Vlastnosti úložiště dat

Datový sklad Jezero Power BI Datamart Databáze KQL (Eventhouse)
Objem dat Bez omezení Bez omezení Až 100 GB Bez omezení
Typ dat Strukturovaná Nestrukturovaná, částečně strukturovaná, strukturovaná Strukturovaná Nestrukturovaná, částečně strukturovaná, strukturovaná
Primární osoba vývojáře Vývojář datového skladu, technik SQL Datový inženýr, datový vědec Občanský vývojář Datový vědec občana, datový inženýr, datový vědec, inženýr SQL
Sada dovedností primárního vývojáře SQL Spark(Scala, PySpark, Spark SQL, R) Žádný kód, SQL Žádný kód, KQL, SQL
Data uspořádaná podle Databáze, schémata a tabulky Složky a soubory, databáze a tabulky Databáze, tabulky, dotazy Databáze, schémata a tabulky
Operace čtení T-SQL, Spark (podporuje čtení z tabulek pomocí zástupců, zatím nepodporuje přístup k zobrazením, uloženým procedurám, fuctions atd.) Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
Operace zápisu T-SQL Spark(Scala, PySpark, Spark SQL, R) Toky dat, T-SQL KQL, Spark, ekosystém konektorů
Transakce s více tabulkami Yes No Ne Ano, pro příjem více tabulek. Viz zásady aktualizace.
Primární vývojové rozhraní Skripty SQL Poznámkové bloky Sparku, definice úloh Sparku Power BI Sada dotazů KQL, databáze KQL
Zabezpečení Úroveň objektu (tabulka, zobrazení, funkce, uložená procedura atd.), úroveň sloupce, úroveň řádku, DDL/DML, dynamické maskování dat Úroveň řádků, úroveň tabulky (při použití jazyka T-SQL), žádná pro Spark Integrovaný editor zabezpečení na úrovni řádků Zabezpečení na úrovni řádku
Přístup k datům prostřednictvím zástupců Ano (nepřímo prostřednictvím jezera) Yes Ne Ano
Může to být zdroj pro klávesové zkratky. Ano (tabulky) Ano (soubory a tabulky) No Ano
Dotazování napříč položkami Ano, dotazování napříč tabulkami lakehouse a skladu Ano, dotazování napříč tabulkami lakehouse a skladu; dotazování napříč lakehousemi (včetně klávesových zkratek pomocí Sparku) No Ano, dotazování napříč databázemi KQL, jezery a sklady pomocí klávesových zkratek
Pokročilé analýzy Nativní prvky časové řady, úplné geoprostorové ukládání a možnosti dotazů
Podpora rozšířeného formátování Úplné indexování pro volný text a částečně strukturovaná data, jako je JSON
Latence příjmu dat Příjem dat ve frontě, příjem dat streamování má několik sekund latence.

Poznámka:

Eventhouse je pracovní prostor pro více databází KQL. Databáze KQL je obecně dostupná, zatímco Eventhouse je ve verzi Preview. Další informace najdete v tématu Přehled eventhouse (Preview).

Scénáře

V těchto scénářích najdete pomoc s výběrem úložiště dat v prostředcích infrastruktury.

Scénář 1

Susan, profesionální vývojář, je pro Microsoft Fabric novinkou. Jsou připravení začít s čištěním, modelováním a analýzou dat, ale musí se rozhodnout vytvořit datový sklad nebo jezero. Po kontrole podrobností v předchozí tabulce jsou primární rozhodovací body dostupnou sadou dovedností a potřebou transakcí s více tabulkami.

Susan strávila mnoho let sestavováním datových skladů na relačních databázových strojích a je obeznámena se syntaxí a funkcemi SQL. Když uvažujete o větším týmu, primární uživatelé těchto dat mají také zkušenosti s analytickými nástroji SQL a SQL. Susan se rozhodne použít datový sklad, který týmu umožňuje pracovat primárně s T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.

Scénář 2

Rob, datový inženýr, potřebuje ukládat a modelovat několik terabajtů dat v Prostředcích infrastruktury. Tým má kombinaci dovedností PySpark a T-SQL. Většina týmů, na kterých běží dotazy T-SQL, jsou příjemci, a proto nemusí psát příkazy INSERT, UPDATE nebo DELETE. Zbývající vývojáři dobře pracují v poznámkových blocích a protože jsou data uložená v Delta, můžou pracovat s podobnou syntaxí SQL.

Rob se rozhodne použít lakehouse, který týmu pro přípravu dat umožňuje využívat své různorodé dovednosti vůči datům a zároveň umožnit členům týmu, kteří jsou vysoce kvalifikovaní v T-SQL, aby data spotřebovával.

Scénář 3

Ash, občan, vývojář, je vývojář Power BI. Jsou obeznámeni s Excelem, Power BI a Office. Potřebují vytvořit datový produkt pro obchodní jednotku. Vědí, že nemají dost dovedností k vytvoření datového skladu nebo jezera, a ty se zdají být příliš moc pro své potřeby a objemy dat. Projdou si podrobnosti v předchozí tabulce a zjistí, že primární rozhodovací body jsou jejich vlastní dovednosti a že potřebují samoobslužnou službu, žádné schopnosti kódu a objem dat pod 100 GB.

Ash spolupracuje s obchodními analytiky, kteří jsou obeznámeni s Power BI a systém Microsoft Office, a ví, že už mají předplatné kapacity Premium. Vzhledem k tomu, že si myslí o svém větším týmu, si uvědomí, že primární spotřebitelé těchto dat mohou být analytici, kteří znají bez kódu a analytické nástroje SQL. Ash se rozhodne použít datový diagram Power BI, který týmu umožňuje rychle vytvářet možnosti pomocí prostředí bez kódu. Dotazy je možné spouštět prostřednictvím Power BI a T-SQL a zároveň umožnit všem uživatelům Sparku v organizaci přístup k datům.

Scénář 4

Daisy je obchodní analytik zkušený s využitím Power BI k analýze kritických bodů dodavatelského řetězce pro rozsáhlý globální maloobchodní řetězec. Potřebují vytvořit škálovatelné datové řešení, které dokáže zpracovávat miliardy řádků dat a lze je použít k vytváření řídicích panelů a sestav, které je možné použít k obchodním rozhodnutím. Data pocházejí z rostlin, dodavatelů, odesílatelů a dalších zdrojů v různých strukturovaných, částečně strukturovaných a nestrukturovaných formátech.

Daisy se rozhodne používat databázi KQL z důvodu škálovatelnosti, rychlé doby odezvy, pokročilých analytických funkcí, včetně analýzy časových řad, geoprostorových funkcí a rychlého režimu přímých dotazů v Power BI. Dotazy je možné spouštět pomocí Power BI a KQL k porovnání mezi aktuálními a předchozími obdobími, rychle identifikovat vznikající problémy nebo poskytovat geoprostorovou analýzu vnitrozemí a námořních tras.