Usmernenia o výkone skladu údajov Synapse v službe Microsoft Fabric
Vzťahuje sa na:✅ Warehouse v službe Microsoft Fabric
Tieto pokyny vám pomôžu pochopiť výkon vášho skladu v službe Microsoft Fabric. V tomto článku nájdete sprievodný materiál a dôležité články, na ktoré sa môžete zamerať. Warehouse v službe Microsoft Fabric je platforma SaaS, v ktorej platformy spravujú aktivity ako správa vyťaženia, súbežnosti a správy úložiska. Okrem tejto internej správy výkonu môžete aj napriek tomu zvýšiť výkon tým, že vyvíjate výkonné dotazy v porovnaní s dobre navrhnutými skladmi.
Výkon studeného spustenia (studenej vyrovnávacej pamäte)
Ukladanie do vyrovnávacej pamäte v lokálnej službe SSD a pamäť je automatická. Prvé 1 – 3 vykonanie dotazu vykonáva výrazne pomalšie ako následné spúšťania. Ak sa u vás vyskytujú problémy s výkonom pri chladnom spustení, tu je niekoľko vecí, ktoré môžete urobiť, aby ste mohli zlepšiť výkon studeného spustenia:
Ak je rozhodujúci výkon pri prvom spustení, skúste vytvoriť štatistiky manuálne. Prečítajte si článok o štatistikách , aby ste lepšie porozumeli role štatistiky a ako vytvoriť manuálnu štatistiku na zlepšenie výkonu dotazu. Ak však výkon pri prvom spustení nie je kritický, môžete sa spoliehať na automatickú štatistiku, ktorá sa vygeneruje v prvom dotaze a bude sa naďalej využívať pri následných spustení (pokiaľ sa základné údaje výrazne nezmenia).
Ak používate Power BI, ak je to možné, použite režim Direct Lake .
Metriky na monitorovanie výkonu
V súčasnosti centrum monitorovania nezahŕňa sklad. Ak vyberiete možnosť Sklad údajov, nebudete mať z navigačného panela prístup k službe Monitoring Hub .
Správcovia tkaniny budú mať prístup k zostave Využitie kapacity a Metrika s aktuálnymi informáciami o sledovaní využitia kapacity, ktorá zahŕňa sklad.
Používanie zobrazenia dynamickej správy (DMV) na monitorovanie vykonávania dotazov
Dynamické zobrazenia správy (DMV) môžete použiť na monitorovanie stavu pripojenia, relácie a požiadavky v sklade.
Štatistika
Sklad používa nástroj dotazov na vytvorenie plánu vykonávania pre daný dotaz SQL. Keď odošlete dotaz, optimalizátor dotazov sa pokúsi vyčísliť všetky možné plány a vybrať najefektívnejšieho kandidáta. Ak chcete určiť, ktorý plán by si vyžadoval najmenej režijné náklady, musí byť nástroj schopný vyhodnotiť množstvo práce alebo riadkov, ktoré môže každý operátor spracovať. Na základe nákladov každého plánu potom vyberie ten, ktorý má najmenej odhadovanú prácu. Štatistické údaje sú objekty, ktoré obsahujú relevantné informácie o vašich údajoch, čo optimalizátoru dotazov umožňuje odhadnúť tieto náklady.
Štatistiky môžete tiež manuálne aktualizovať po každom načítaní údajov alebo aktualizácii údajov, čím zaistíte, že možno vytvoriť najlepší plán dotazov.
Ďalšie štatistiky informácií a spôsob, ako môžete rozšíriť automaticky vytvorené štatistiky, nájdete v téme Štatistiky v sklade údajov služby Fabric.
Pokyny na príjem údajov
Existujú štyri možnosti príjmu údajov do skladu:
- KOPÍROVAŤ (Transact-SQL)
- Kanály údajov
- Toky údajov
- Príjem medzi skladmi
Ak chcete zistiť, ktorá možnosť je pre vás najvhodnejšia, a skontrolovať najvhodnejšie postupy príjmu údajov, skontrolujte údaje Ingestu.
Vloženie skupinových príkazov do šarží (vyhnite sa presuvkám)
Jednorazové načítanie malej tabuľky pomocou príkazu INSERT, ako je to znázornené v nasledujúcom príklade, môže byť najlepším prístupom v závislosti od vašich potrieb. Ak však potrebujete načítať tisíce alebo milióny riadkov počas dňa, jednoduché VLOŽENIE nie je optimálne.
INSERT INTO MyLookup VALUES (1, 'Type 1')
Usmernenia o tom, ako tieto zložité scenáre načítania zvládnete, nájdete v téme Najvhodnejšie postupy pri spracovávaní údajov.
Minimalizovať veľkosti transakcií
Príkazy INSERT, UPDATE a DELETE sa spúšťajú v transakcii. Keď zlyhajú, musia sa vrátiť späť. Ak chcete znížiť potenciál dlhého vrátenia údajov, minimalizujte veľkosť transakcií vždy, keď je to možné. Minimalizovanie veľkosti transakcií sa dá vykonať delením príkazov INSERT, UPDATE a DELETE do častí. Ak máte napríklad insert, ktoré očakávate, že bude trvať 1 hodinu, môžete vložiť do štyroch častí. Každé spustenie sa potom skráti na 15 minút.
Zvážte použitie jazyka CTAS (Transact-SQL) na zápis údajov, ktoré chcete mať v tabuľke, namiesto použitia funkcie DELETE. Ak CTAS trvá rovnaké množstvo času, je to bezpečnejšie spustiť, pretože má minimálne protokolovanie transakcií a možno rýchlo zrušiť v prípade potreby.
Zbalenie klientskych aplikácií a služby Microsoft Fabric
Ak používate klientske aplikácie, uistite sa, že používate službu Microsoft Fabric v oblasti, ktorá je blízko vášho klientskeho počítača. Príklady klientskych aplikácií zahŕňajú Power BI Desktop, SQL Server Management Studio a Azure Data Studio.
Využitie návrhu údajov hviezdicovej schémy
Hviezdicová schéma usporadúva údaje do tabuliek faktov a tabuliek dimenzií. Uľahčuje analytické spracovanie denormalizovaním údajov z vysoko normalizovaných systémov OLTP, ingestovaním transakčných údajov a hlavnými údajmi podniku do spoločnej, vyčistenej a overenej štruktúry údajov, ktorá minimalizuje spájanie v čase dotazu, znižuje počet riadkov a uľahčuje agregácie a spracovanie zoskupenia.
Ďalšie pokyny k návrhu skladu nájdete v téme Tabuľky v sklade údajov.
Zmenšenie veľkostí množiny výsledkov dotazu
Zmenšením veľkosti množiny výsledkov dotazu sa vyhnete problémom na strane klienta spôsobeným veľkými výsledkami dotazu. Množiny výsledkov editora dotazov SQL sú obmedzené na prvých 10 000 riadkov, aby sa predišlo týmto problémom v tomto používateľskom rozhraní založenom na prehliadači. Ak potrebujete vrátiť viac ako 10 000 riadkov, použite nástroj SQL Server Management Studio (SSMS) alebo Azure Data Studio.
Výber najlepšieho typu údajov na dosiahnutie výkonu
Pri definovaní tabuliek použite najmenší typ údajov, ktorý podporuje vaše údaje, čím sa zlepší výkon dotazu. Toto odporúčanie je dôležité pre stĺpce CHAR a VARCHAR. Ak najdlhšia hodnota v stĺpci je 25 znakov, potom definujte stĺpec ako VARCHAR(25). Vyhnite sa definovaniu všetkých stĺpcov znakov s veľkou predvolenou dĺžkou.
Ak je to možné, použite typy údajov založené na celých číslach. Operácie SORT, JOIN a GROUP BY sa dokončia rýchlejšie na celých číslach ako pri údajoch znakov.
Podporované typy údajov a ďalšie informácie nájdete v téme Typy údajov.
Výkon koncového bodu analýzy SQL
Informácie a odporúčania o výkone koncového bodu analýzy SQL nájdete v téme Dôležité informácie o výkone koncového bodu analýzy SQL.
Zhutnenie údajov
Zhutnenie údajov konsoliduje menšie parquet súbory do menšieho počtu väčších súborov, čím sa optimalizujú operácie čítania. Tento proces tiež pomáha efektívne spravovanie odstránených riadkov tým, že ich odstráni z nemenných súborov parquet. Proces zhutňovania údajov zahŕňa opätovné zapisovanie tabuliek alebo segmentov tabuliek do nových súborov parketov, ktoré sú optimalizované na výkon. Ďalšie informácie nájdete v blogu: Automatická kompaktnosť údajov pre sklad tkaniny.
Proces zhutňovania údajov je bezproblémovo integrovaný do skladu. Pri vykonávaní dotazov systém identifikuje tabuľky, ktoré môžu využívať zhutnenie a vykonávajú potrebné hodnotenia. Neexistuje žiadny manuálny spôsob, ako spustiť zhutnenie údajov.