Co je prediktivní vstupně-výstupní operace?

Prediktivní vstupně-výstupní operace je kolekce optimalizací Azure Databricks, které zlepšují výkon interakcí s daty. Prediktivní vstupně-výstupní funkce jsou seskupené do následujících kategorií:

  • Zrychlené čtení zkracuje dobu potřebnou ke skenování a čtení dat.
  • Akcelerované aktualizace snižují množství dat, která je potřeba při aktualizacích, odstraňování a slučování přepsat.

Prediktivní vstupně-výstupní operace jsou exkluzivní pro modul Photon v Azure Databricks.

Zrychlení čtení pomocí prediktivních vstupně-výstupních operací

Prediktivní vstupně-výstupní operace se používají ke zrychlení prohledávání dat a filtrování výkonu pro všechny operace na podporovaných výpočetních typech.

Důležité

Prediktivní čtení vstupně-výstupních operací jsou podporovány bezserverovými a profesionálními typy sql warehouse a clustery s akcelerovanými photon spuštěnými modulem Databricks Runtime 11.3 LTS a vyššími verzemi.

Prediktivní vstupně-výstupní operace vylepšují výkon skenování použitím technik hlubokého učení k provedení následujících kroků:

  • Určete nejúčinnější vzor přístupu ke čtení dat a kontrolujte pouze data, která jsou skutečně potřebná.
  • Eliminujte dekódování sloupců a řádků, které nejsou potřeba k vygenerování výsledků dotazu.
  • Vypočítejte pravděpodobnosti kritérií hledání ve selektivních dotazech odpovídajících řádku. Při spouštění dotazů používáme tyto pravděpodobnosti k předvídání toho, kde by došlo k dalšímu odpovídajícímu řádku, a pouze ke čtení těchto dat z cloudového úložiště.

Zrychlení aktualizací pomocí prediktivních vstupně-výstupních operací

Prediktivní vstupně-výstupní operace pro aktualizace se používají automaticky pro všechny tabulky s povolenými vektory odstranění pomocí následujících výpočetních typů s podporou Photon:

  • Bezserverové sklady SQL.
  • Sklady Pro SQL.
  • Clustery s Modulem Databricks Runtime 14.0 a novějším

Poznámka:

Podpora prediktivních vstupně-výstupních operací pro aktualizace je k dispozici v Databricks Runtime 12.2 LTS a vyšší, ale Databricks doporučuje pro zajištění nejlepšího výkonu používat verzi 14.0 a vyšší.

Podívejte se, co jsou vektory odstranění?

Důležité

Nastavení správce pracovního prostoru určuje, jestli jsou vektory odstranění pro nové tabulky Delta povolené automaticky. Viz automatické povolení vektorů odstranění.

Podporu vektorů odstranění v tabulce Delta Lake povolíte nastavením vlastnosti tabulky Delta Lake. Při vytváření tabulky nebo úpravě existující tabulky povolíte vektory odstranění, jak je znázorněno v následujících příkladech:

CREATE TABLE <table-name> [options] TBLPROPERTIES ('delta.enableDeletionVectors' = true);

ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Upozorňující

Když povolíte vektory odstranění, upgraduje se verze protokolu tabulky. Po upgradu nebude tabulka čitelná klienty Delta Lake, kteří nepodporují vektory odstranění. Podívejte se, jak Azure Databricks spravuje kompatibilitu funkcí Delta Lake?

Seznam klientů, kteří podporují vektory odstranění, najdete v tématu Kompatibilita s klienty Delta.

Ve službě Databricks Runtime 14.1 a novějších můžete funkci tabulky vektorů odstranění odstranit, abyste umožnili kompatibilitu s ostatními klienty Delta. Viz Funkce tabulky Drop Delta.

Prediktivní vstupně-výstupní operace využívá vektory odstranění k urychlení aktualizací snížením četnosti přepisů souborů během úprav dat v tabulkách Delta. Prediktivní vstupně-výstupní operace optimalizují DELETEMERGEa UPDATE provoz.

Místo přepsání všech záznamů v datovém souboru při aktualizaci nebo odstranění jakéhokoli záznamu používá prediktivní vstupně-výstupní vektory k označení, že se z cílových datových souborů odebraly záznamy. Doplňkové datové soubory slouží k označení aktualizací.

Následná čtení v tabulce přeloží aktuální stav tabulky použitím uvedených změn na nejnovější verzi tabulky.

Důležité

Prediktivní aktualizace vstupně-výstupních operací sdílejí všechna omezení s vektory odstranění. Ve službě Databricks Runtime 12.2 LTS a vyšší existují následující omezení:

  • Rozdílové sdílení není podporováno u tabulek s povolenými vektory odstranění.
  • Nelze vygenerovat soubor manifestu pro tabulku s přítomnými vektory odstranění. Spusťte REORG TABLE ... APPLY (PURGE) a ujistěte se, že nejsou spuštěny žádné souběžné operace zápisu, aby se vygeneroval manifest.
  • Soubory manifestu nelze přírůstkově generovat pro tabulku s povolenými vektory odstranění.