Rychlý start: Vytvoření nové databáze Lake s využitím šablon databází
V tomto rychlém startu najdete kompletní ukázkový scénář, jak použít šablony databáze k vytvoření databáze Lake, zarovnání dat s novým modelem a použití integrovaného prostředí k analýze dat.
Požadavky
- Ke zkoumání šablony databáze Lake z galerie se vyžadují alespoň oprávnění role uživatele Synapse .
- Pro vytvoření databáze Lake se v pracovním prostoru Azure Synapse vyžadují oprávnění Správce Synapse nebo Přispěvatel Synapse.
- Při použití možnosti vytvořit tabulku z data lake se vyžadují oprávnění Přispěvatel dat v objektech blob služby Storage.
Vytvoření databáze Lake z databázových šablon
Pomocí nové funkce šablon databází můžete vytvořit databázi Lake, kterou můžete použít ke konfiguraci datového modelu pro databázi.
V našem scénáři použijeme Retail
šablonu databáze a vybereme následující entity:
- RetailProduct – produkt je cokoli, co se dá nabídnout na trhu a které by mohlo uspokojovat potřeby potenciálních zákazníků. Tento produkt je součtem všech fyzických, psychických, symbolických a servisních atributů, které jsou s ním spojené.
- Transakce – nejnižší úroveň spustitelné práce nebo aktivity zákazníka. Transakce se skládá z jedné nebo více diskrétních událostí.
- TransactionLineItem – komponenty transakce rozčleněné podle product (Product) a Quantity (Množství), jedna pro každou položku řádku.
- Strana – strana je jednotlivec, organizace, právnická osoba, sociální organizace nebo obchodní jednotka, která je pro firmu zajímavá.
- Zákazník – zákazník je fyzická nebo právnická osoba, která má nebo zakoupila produkt nebo službu.
- Kanál – kanál je prostředek, kterým se produkty nebo služby prodávají nebo distribuují.
Nejjednodušší způsob, jak najít entity, je použít vyhledávací pole nad různými obchodními oblastmi, které obsahují tabulky.
Konfigurace databáze Lake
Po vytvoření databáze se ujistěte, že účet úložiště a cesta k souboru jsou nastavené na umístění, kam chcete data uložit. Výchozí cesta bude k primárnímu účtu úložiště v rámci Azure Synapse Analytics, ale můžete ji změnit podle svých potřeb.
Pokud chcete rozložení uložit a zpřístupnit ho v Azure Synapse, publikujte všechny změny. Tento krok dokončí nastavení databáze Lake a zpřístupní ji všem komponentám v rámci Azure Synapse Analytics i mimo ni.
Ingestování dat do databáze Lake
Pokud chcete ingestovat data do databáze Lake, můžete spouštět kanály s mapováním toků dat bez kódu, která mají konektor databáze pracovního prostoru pro načítání dat přímo do databázové tabulky. K příjmu dat do tabulek databáze Lake můžete použít také interaktivní poznámkové bloky Sparku:
%%sql
INSERT INTO `retail_mil`.`customer` VALUES (1,date('2021-02-18'),1022,557,101,'Tailspin Toys (Head Office)','Waldemar Fisar',90410,466);
Vytváření dotazů na data
Po vytvoření databáze Lake existují různé způsoby dotazování na data. V současné době se podporují databáze SQL v bezserverových fondech SQL a automaticky rozumí nově vytvořenému formátu databáze Lake.
SELECT TOP (100) [ProductId]
,[ProductName]
,[ProductDescription]
,[ProductInternalName]
,[ItemSku]
,[PrimaryBrandId]
FROM [Retail_mil].[dbo].[RetailProduct]
Dalším způsobem, jak získat přístup k datům v rámci Azure Synapse, je otevřít nový poznámkový blok Sparku a použít integrované prostředí tam:
df = spark.sql("SELECT * FROM `Retail_mil`.`RetailProduct`")
df.show(10)
Trénování modelů strojového učení
Databázi Lake můžete použít k trénování modelů strojového učení a k určení skóre dat. Další podrobnosti najdete v trénování modelů strojového učení.
Další kroky
Pokračujte ve zkoumání možností návrháře databází pomocí následujících odkazů.