Optimalizace datových sad a ukládání do mezipaměti
Řídicí panely AI/BI jsou cenné nástroje pro analýzu dat a rozhodování a efektivní doba načítání může výrazně zlepšit uživatelské prostředí. Tento článek vysvětluje, jak ukládání do mezipaměti a optimalizace datových sad zvýkonňuje a zefektivňuje řídicí panely.
Výkon dotazů
Dotazy a jejich výkon můžete zkontrolovat v historii dotazů pracovního prostoru. V historii dotazů se zobrazují dotazy SQL prováděné pomocí služby SQL Warehouse. Kliknutím na Historii dotazů na bočním panelu zobrazíte historii dotazů. Viz historie dotazů.
U datových sad řídicích panelů azure Databricks používá optimalizace výkonu v závislosti na velikosti výsledku datové sady.
Optimalizace datových sad
Datové sady řídicích panelů AI/BI zahrnují následující optimalizace výkonu:
- Pokud je velikost výsledku datové sady malá (menší nebo rovna 100 tisíc řádkům nebo 100 MB podle toho, co je menší), výsledek datové sady se načte klientovi a v prohlížeči se provede filtrování a agregace specifické pro vizualizaci. Filtrování a agregace dat pro malé datové sady je velmi rychlé a zajištění, že je datová sada malá, může vám pomoct optimalizovat výkon řídicího panelu. U malých datových sad se v historii dotazů zobrazí jenom dotaz na datovou sadu.
- Pokud je velikost výsledku datové sady velká (větší než 100 tisíc řádků nebo 100 MB), text dotazu datové sady je zabalený v klauzuli SQL
WITH
a filtrování a agregace specifické pro vizualizaci se provádí v dotazu na back-endu, nikoli v prohlížeči. U velkých datových sad se dotaz vizualizace zobrazí v historii dotazů. - U vizualizačních dotazů odesílaných do back-endu se samostatné dotazy vizualizace na stejnou datovou sadu, které sdílejí stejné
GROUP BY
klauzule a predikáty filtrů, zkombinují do jednoho dotazu pro zpracování. V tomto případě se uživatelům může zobrazit jeden kombinovaný dotaz v historii dotazů, který načítá výsledky pro více vizualizací.
Ukládání do mezipaměti a aktuálnost dat
Řídicí panely udržují 24hodinovou mezipaměť výsledků pro optimalizaci počáteční doby načítání, která funguje na základě maximálního úsilí. To znamená, že zatímco se systém vždy pokouší použít historické výsledky dotazu propojené s přihlašovacími údaji řídicího panelu ke zvýšení výkonu, existují některé případy, kdy se výsledky uložené v mezipaměti nedají vytvářet ani udržovat. Data uložená v mezipaměti nemají žádný konkrétní limit paměti ani pevný počet dotazů.
U řídicích panelů s více stránkami platí následující:
- Úprava konceptu řídicího panelu načte a ukládá do mezipaměti všechny datové sady.
- Když čtenáři otevřou publikovaný řídicí panel, spustí se a ukládají se do mezipaměti jenom datové sady, které podporují aktivní stránku.
- Pokud je nastavený plán, aktualizují se všechny datové sady podle plánu a tyto výsledky se ukládají do mezipaměti.
Následující tabulka vysvětluje, jak se ukládání do mezipaměti liší podle stavu a přihlašovacích údajů řídicího panelu:
Typ řídicího panelu | Typ ukládání do mezipaměti |
---|---|
Publikovaný řídicí panel s vloženými přihlašovacími údaji | Sdílená mezipaměť. Všichni diváci vidí stejné výsledky. |
Koncept řídicího panelu nebo publikovaného řídicího panelu bez vložených přihlašovacích údajů | Mezipaměť pro jednotlivé uživatele. Čtenáři vidí výsledky na základě svých oprávnění k datům. |
Řídicí panely automaticky používají výsledky dotazu uložené v mezipaměti, pokud podkladová data zůstanou po posledním dotazu nezměněná nebo pokud se výsledky načetly před méně než 24 hodinami. Pokud na řídicím panelu existují zastaralé výsledky a použijí se parametry, dotazy se znovu spustí, pokud se v posledních 24 hodinách nepoužívaly stejné parametry. Podobně platí, že použití filtrů u datových sad přesahujících 100 000 řádků vyzve dotazy k opětovnému spuštění, pokud se v posledních 24 hodinách nepoužívaly stejné filtry.
Naplánované dotazy
Přidání plánu na publikovaný řídicí panel s vloženými přihlašovacími údaji může výrazně urychlit počáteční proces načítání pro všechny prohlížeče řídicích panelů.
Pro každou naplánovanou aktualizaci řídicího panelu dojde k následujícímu:
- Veškerá logika SQL, která definuje datové sady, se spouští v určeném časovém intervalu.
- Výsledky naplňují mezipaměť výsledků dotazu a pomáhají zlepšit čas počátečního načtení řídicího panelu.