Zrychlení dotazů Azure Data Lake Storage

Akcelerace dotazů umožňuje aplikacím a analytickým architekturám výrazně optimalizovat zpracování dat načtením pouze dat, která vyžadují k provedení dané operace. Tím se zkracuje čas a výpočetní výkon potřebný k získání důležitých přehledů o uložených datech.

Přehled

Akcelerace dotazů přijímá filtry predikátů a projekce sloupců, které aplikacím umožňují filtrovat řádky a sloupce v době čtení dat z disku. Do aplikace se přenesou pouze data, která splňují podmínky predikátu. Tím se sníží latence sítě a náklady na výpočetní prostředky.

Sql můžete použít k určení predikátů filtru řádků a projekce sloupců v požadavku na zrychlení dotazu. Požadavek zpracuje pouze jeden soubor. Proto se nepodporují pokročilé relační funkce SQL, jako jsou spojení a seskupení podle agregací. Akcelerace dotazů podporuje data ve formátu CSV a JSON jako vstup pro každý požadavek.

Funkce akcelerace dotazů není omezena na Data Lake Storage (účty úložiště s povoleným hierarchickým oborem názvů). Akcelerace dotazů je kompatibilní s objekty blob v účtech úložiště, u kterých není povolený hierarchický obor názvů. To znamená, že při zpracování dat, která jste už uložili jako objekty blob v účtech úložiště, můžete dosáhnout stejného snížení latence sítě a nákladů na výpočetní prostředky.

Příklad použití akcelerace dotazů v klientské aplikaci najdete v tématu Filtrování dat pomocí akcelerace dotazů Azure Data Lake Storage.

Tok dat

Následující diagram znázorňuje, jak typická aplikace používá akceleraci dotazů ke zpracování dat.

Přehled akcelerace dotazů

Klientská aplikace požaduje data souboru zadáním predikátů a projekcí sloupců.
Akcelerace dotazů analyzuje zadaný dotaz SQL a distribuuje práci za účelem analýzy a filtrování dat.
Procesory načtou data z disku, parsují data pomocí příslušného formátu a pak filtrují data použitím zadaných predikátů a projekcí sloupců.
Akcelerace dotazů kombinuje části odpovědí a streamuje je zpět do klientské aplikace.
Klientská aplikace přijímá a parsuje streamovanou odpověď. Aplikace nemusí filtrovat žádná jiná data a může použít požadovaný výpočet nebo transformaci přímo.

Lepší výkon s nižšími náklady

Akcelerace dotazů optimalizuje výkon snížením množství dat, která se přenášejí a zpracovávají vaší aplikací.

Pokud chcete vypočítat agregovanou hodnotu, aplikace obvykle načítají všechna data ze souboru a pak data zpracovávají a filtrují místně. Analýza vzorů vstupu a výstupu analytických úloh ukazuje, že aplikace obvykle vyžadují pouze 20% dat, která čtou, aby mohly provádět jakýkoli daný výpočet. Tato statistika platí i po použití technik, jako je prořezávání oddílů. To znamená, že 80% těchto dat je zbytečně přenášeno přes síť, parsováno a filtrováno aplikacemi. Tento model navržený tak, aby odebral nepotřebná data, způsobuje značné náklady na výpočetní prostředky.

I když Azure nabízí špičkovou síť z hlediska propustnosti i latence, zbytečné přenosy dat přes tuto síť mohou být stále nákladné pro výkon aplikace. Díky vyfiltrování nežádoucích dat během požadavku na úložiště eliminuje akcelerace dotazů tyto náklady.

Kromě toho zatížení procesoru potřebné k analýze a filtrování nepotřebných dat vyžaduje, aby vaše aplikace zřídila větší počet a větší virtuální počítače, aby mohla pracovat. Přenesením tohoto výpočetního zatížení na akceleraci dotazů můžou aplikace realizovat významné úspory nákladů.

Aplikace, které můžou těžit z akcelerace dotazů

Akcelerace dotazů je určená pro architektury distribuované analýzy a aplikace pro zpracování dat.

Distribuované analytické architektury, jako je Apache Spark a Apache Hive, zahrnují v rámci architektury vrstvu abstrakce úložiště. Tyto moduly také zahrnují optimalizátory dotazů, které můžou při určování optimálního plánu dotazů pro dotazy uživatelů začlenit znalosti o možnostech základní vstupně-výstupní služby. Tyto architektury začínají integrovat akceleraci dotazů. V důsledku toho uživatelé těchto architektur vidí vylepšenou latenci dotazů a nižší celkové náklady na vlastnictví, aniž by museli provádět změny dotazů.

Akcelerace dotazů je také navržená pro aplikace pro zpracování dat. Tyto typy aplikací obvykle provádějí rozsáhlé transformace dat, které nemusí přímo vést k analytickým přehledům, takže nebudou vždy používat zavedené distribuované analytické architektury. Tyto aplikace mají často přímý vztah se základní službou úložiště, aby mohly těžit přímo z funkcí, jako je akcelerace dotazů.

Příklad integrace akcelerace dotazů aplikace najdete v tématu Filtrování dat pomocí akcelerace dotazů Azure Data Lake Storage.

Stanovení cen

Kvůli zvýšenému zatížení výpočetních prostředků ve službě Azure Data Lake Storage se cenový model pro použití akcelerace dotazů liší od normálního transakčního modelu Azure Data Lake Storage. Zrychlené zpracování dotazu účtuje poplatky za objem kontrolovaných dat a také poplatky za objem dat předaných volajícímu. Další informace najdete v tématu o cenách služby Azure Data Lake Storage.

I přes změnu fakturačního modelu je cenový model urychlení dotazů navržen tak, aby snížil celkové náklady na vlastnictví pro pracovní zátěž díky snížení nákladů na mnohem dražší virtuální počítače.

Další kroky

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-05-03