Zdieľať cez


Ingest data into the Warehouse

Vzťahuje sa na:✅ Warehouse v službe Microsoft Fabric

Sklad v službe Microsoft Fabric ponúka vstavané nástroje na príjem údajov, ktoré používateľom umožňujú preniesť údaje do skladov pomocou prostredia bez kódu alebo kódu.

Možnosti príjmu údajov

Údaje môžete preniesť do skladu pomocou niektorej z nasledujúcich možností:

  • COPY (Transact-SQL): Príkaz COPY ponúka flexibilné a priepustné príjem údajov z externého konta úložiska Azure. Príkaz COPY môžete použiť ako súčasť svojej existujúcej logiky ETL/ELT v kóde Transact-SQL.
  • Kanály údajov: kanály ponúkajú prostredie bez kódu alebo prostredie s minimálnym použitím kódu pre príjem údajov. Pomocou kanálov môžete zorganizovať výkonné pracovné postupy pre úplné funkcie Extrahovať, Transformovať, Načítať (ETL), ktoré zahŕňajú aktivity, ktoré pomáhajú pripraviť cieľové prostredie, spúšťať vlastné príkazy Transact-SQL, vykonávať vyhľadávania alebo kopírovať údaje zo zdroja do cieľa.
  • Toky údajov: toky údajov sú alternatívou ku kanálom a umožňujú jednoduchú prípravu, čistenie a transformáciu údajov pomocou prostredia bez kódu.
  • Príjem medzi skladmi: je možné aj príjem údajov zo zdrojov pracovného priestoru. Tento scenár môže byť potrebný, ak je potrebné vytvoriť novú tabuľku s podmnožinou inej tabuľky alebo v dôsledku spojenia rôznych tabuliek v sklade a v úložisku lakehouse. Pri prímesi medzi skladmi, okrem uvedených možností, funkcie Transact-SQL, ako napríklad VLOŽIŤ... VYBERTE, VYBERTE POLOŽKU DO alebo VYTVORTE TABUĽKU AKO VYBERTE (CTAS) pracovný krížový sklad v rámci toho istého pracovného priestoru.

Rozhodnite sa, ktorý nástroj na príjem údajov použijete

Ak chcete rozhodnúť, ktorú možnosť príjmu údajov použiť, môžete použiť nasledujúce kritériá:

  • Príkaz COPY (Transact-SQL) použite pre operácie príjmu údajov s množstvom kódu, pre najvyššiu možnú priepustnosť údajov alebo vtedy, keď potrebujete pridať príjem údajov ako súčasť logiky Transact-SQL. Syntax nájdete v téme COPY INTO (Transact-SQL).
  • Použite údajové kanály pre pracovné postupy príjmu údajov bez kódu alebo s minimálnym použitím kódu, robustné pracovné postupy príjmu údajov, ktoré sa spúšťajú opakovane podľa plánu alebo zahŕňajú veľké objemy údajov. Ďalšie informácie nájdete v téme Ingest údajov pomocou kanálov údajov.
  • Použite toky údajov na prostredie bez kódu, ktoré umožňuje vlastné transformácie zdrojových údajov pred ich požitím. Tieto transformácie zahŕňajú (no nielen) zmenu typov údajov, pridanie alebo odstránenie stĺpcov alebo použitie funkcií na vytvorenie vypočítaných stĺpcov. Ďalšie informácie nájdete v téme Toky údajov.
  • Použite príjem zo skladu pre prostredia s množstvom kódu a vytvorte nové tabuľky so zdrojovými údajmi v rámci toho istého pracovného priestoru. Ďalšie informácie nájdete v téme Ingest údajov pomocou transact-SQL a zápis dotazu krížovej databázy.

Poznámka

Príkaz COPY v sklade podporuje iba zdroje údajov pre kontá úložiska Azure. Zdroje OneLake momentálne nie sú podporované.

Podporované formáty údajov a zdroje údajov

Príjem údajov pre sklad v službe Microsoft Fabric ponúka obrovské množstvo formátov údajov a zdrojov, ktoré môžete použiť. Každá z uvedených možností obsahuje vlastný zoznam podporovaných typov konektorov údajov a formátov údajov.

Pri príručnosti medzi skladmi sa zdroje údajov musia nachádzať v tom istom pracovnom priestore služby Microsoft Fabric. Dotazy možno pre zdrojové údaje vykonávať pomocou trojdielne pomenovania.

Predpokladajme napríklad, že v pracovnom priestore sú dva sklady s názvami Inventory a Sales. Dotaz, ako napríklad nasledujúci, vytvorí novú tabuľku v sklade Inventár s obsahom tabuľky v sklade Inventár, ktorá je spojená s tabuľkou v sklade predaja:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT s.SalesOrders, i.ProductName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
WHERE s.ProductID = i.ProductID
    AND s.Region = 'West region'

Príkaz COPY (Transact-SQL) aktuálne podporuje formáty súborov PARQUET a CSV. V prípade zdrojov údajov sú v súčasnosti podporované služby Azure Data Lake Storage (ADLS) Gen2 a Azure Blob Storage.

Kanály údajov a toky údajov podporujú širokú škálu zdrojov údajov a formátov údajov. Ďalšie informácie nájdete v téme Kanály údajov a Toky údajov.

Osvedčené postupy

Funkcia príkazu COPY v sklade v službe Microsoft Fabric používa jednoduché, flexibilné a rýchle rozhranie na príjem údajov s vysokou priepustnosťou pre vyťaženia SQL. V aktuálnej verzii podporujeme načítanie údajov iba z kont externého úložiska.

Pomocou TSQL môžete tiež vytvoriť novú tabuľku a potom do nej vložiť a potom aktualizovať a odstrániť riadky údajov. Údaje je možné vložiť z ľubovoľnej databázy v rámci pracovného priestoru služby Microsoft Fabric pomocou dotazov krížovej databázy. Ak chcete presunúť údaje zo služby Lakehouse do skladu, môžete to urobiť pomocou dotazu krížovej databázy. Napríklad:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
  • Vyhýbajte sa používaniu údajov pomocou príkazov INSERT typu singleton, pretože to spôsobuje slabý výkon pri dotazoch a aktualizáciách. Ak sa po sebe použili jednotónové príkazy INSERT pre príjem údajov, odporúčame vytvoriť novú tabuľku pomocou funkcie VYTVORIŤ TABUĽKU AKO SELECT (CTAS) alebo VLOŽIŤ... VYBERTE vzory, zvrhnite pôvodnú tabuľku a potom znova vytvorte tabuľku z tabuľky, ktorú ste vytvorili pomocou funkcie VYTVORIŤ TABUĽKU AKO SELECT (CTAS).
    • Pokles existujúcej tabuľky ovplyvní váš sémantický model vrátane všetkých vlastných mierok alebo prispôsobení, ktoré ste mohli urobiť v sémantickom modeli.
  • Pri práci s externými údajmi v súboroch sa odporúča, aby mali súbory veľkosť minimálne 4 MB.
  • V prípade veľkých komprimovaných súborov CSV zvážte rozdelenie súboru do viacerých súborov.
  • Azure Data Lake Storage (ADLS) Gen2 ponúka lepší výkon ako Azure Blob Storage (staršia verzia). Vždy, keď je to možné, zvážte použitie konta ADLS Gen2.
  • V prípade kanálov, ktoré sa často spúšťajú, zvážte izolovanie konta úložiska Azure z iných služieb, ktoré by mohli zároveň pristupovať k rovnakým súborom.
  • Explicitné transakcie vám umožňujú zoskupiť viaceré zmeny údajov, takže sú viditeľné len pri čítaní jednej alebo viacerých tabuliek, keď je transakcia úplne viazaná. V prípade zlyhania niektorej zo zmien máte tiež možnosť vrátiť transakciu späť.
  • Ak sa funkcia SELECT nachádza v rámci transakcie a pred ňou boli vložené údaje, automaticky generované štatistiky môžu byť po vrátení zmien nepresné. Nepresné štatistiky môžu viesť k neooptimizovaným plánom dotazov a času vykonania. Ak vrátite transakciu so zoznamom SELECTs po veľkom stĺpci INSERT, aktualizujte štatistiku pre stĺpce uvedené vo vašom výbere.

Poznámka

Bez ohľadu na to, ako ingestujete údaje do skladov, parquet súbory vytvorené úlohou príjmu údajov bude optimalizovaná pomocou V-Order optimalizáciu zápisu. Príkaz V-Order optimalizuje súbory na parketoch tak, aby sa vo výpočtových nástrojoch služby Microsoft Fabric umožnili bleskové čítanie, ako sú napríklad Power BI, SQL, Spark a ďalšie. Skladové dotazy vo všeobecnosti využívajú rýchlejšie časy čítania pre dotazy s touto optimalizáciou, pričom sa zaisťuje, že parquet súbory sú 100 % kompatibilné s jeho špecifikáciou typu open-source. Na rozdiel od služby Fabric Dátový inžinier ing je V-Order globálne nastavenie v sklade údajov Synapse, ktoré nemožno zakázať. Ďalšie informácie o V-Order nájdete v téme Vysvetlenie a spravovanie V-Order for Warehouse.